topic-1
data model time based causal models methods inference
Learning Linear Causal Representations from Interventions under General Nonlinear Mixing
Simon Buchholz Goutham Rajendran Elan Rosenfeld Bryon Aragam Bernhard Schölkopf Pradeep Kumar Ravikumar
研究问题:学习未知潜在干预下的因果关系表示。
动机:在潜在分布为高斯但混合函数完全一般的情况下,从未知的单节点干预中证明强可识别性结果。
方法:通过分析潜在分布的精度矩阵的二次形式,挖掘非线性密度变换后数据分布中的高维几何结构。
效果:提出一种对比算法来识别潜在变量,并在各种任务上评估其性能。
How to Turn Your Knowledge Graph Embeddings into Generative Models
Lorenzo Loconte Nicola Di Mauro Robert Peharz Antonio Vergari
研究问题:如何利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE)。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,本文提出通过结合知识图谱来增强语言表示。
方法:采用大规模文本语料库和知识图谱进行联合训练,训练出ERNIE模型。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Additive Decoders for Latent Variables Identification and Cartesian-Product Extrapolation
Sebastien Lachapelle Divyat Mahajan Ioannis Mitliagkas Simon Lacoste-Julien
研究问题:解决表示学习中的潜在变量识别和“超出支持范围”的图像生成问题。
动机:对于一类被称为“附加式”解码器的模型,我们证明了其可以解决潜在变量识别和“超出支持范围”的图像生成问题,这对于处理可以被分解为对象特定图像之和的图像非常适用。
方法:通过使用附加式解码器进行重构问题求解,如果满足一定条件,可以保证潜在变量块的识别,这些条件只依赖于对潜在因子分布的弱假设。
效果:我们的结果表明,附加式解码器可以在新的环境下实现非线性独立成分分析(ICA),并增强了我们对对象中心表示学习方法的理论理解。此外,我们还从理论上证明,附加式解码器可以通过以新的方式重新组合观察到的变化因素来生成新的图像,这种能力我们称之为笛卡尔积外推。在模拟数据上的实验表明,附加性对于识别和外推都是至关重要的。
Sampling from Gaussian Process Posteriors using Stochastic Gradient Descent
Jihao Andreas Lin Javier Antoran Shreyas Padhy David Janz José Miguel Hernández-Lobato Alexander Terenin
研究问题:高斯过程是一种强大的不确定性量化和序列决策框架,但其需要解决线性系统的问题,这在数据集大小上具有立方成本并容易受条件影响。
动机:我们探索随机梯度算法作为一种计算效率高的方法来近似解决这些线性系统,以克服高斯过程的限制。
方法:我们开发了从后验采样的低方差优化目标,并将其扩展到诱导点。我们还通过非收敛性的隐含偏差的光谱特性来解释随机梯度下降通常能产生准确的预测。
效果:实验结果表明,随机梯度下降在具有足够数据覆盖的区域和足够远离数据的区域都能生成接近真实后验的预测分布。在大规模或病态回归任务上,随机梯度下降实现了最先进的性能。其不确定性估计在大规模贝叶斯优化任务上与明显更昂贵的基线相匹配。
Causal normalizing flows: from theory to practice
Adrián Javaloy Pablo Sanchez Martin Isabel Valera
研究问题:本文旨在深化对正规化流在因果推理中的应用。
动机:利用最新的非线性ICA结果,显示了给定因果顺序,可以从观察数据中识别出因果模型,并使用自回归正规化流(NFs)进行恢复。
方法:分析不同的设计和学习选择以捕捉潜在的因果数据生成过程,描述如何在因果NFs中实现do操作符,从而回答干预和反事实问题。
效果:通过全面的消融研究验证了设计和训练选择;将因果NFs与其他近似因果模型的方法进行比较;实证地证明因果NFs可以用于解决现实世界的问题,其中混合离散连续数据和部分知识在因果图中是常态。
Exact Bayesian Inference on Discrete Models via Probability Generating Functions: A Probabilistic Programming Approach
Fabian Zaiser Andrzej S Murawski Luke Ong
研究问题:本文提出了一种精确的贝叶斯推理方法,用于解决离散统计模型的大类离散推理问题。
动机:现有的精确推理工具无法处理具有无限支持和连续先验的离散模型,因此需要一种新的方法来解决这个问题。
方法:本文引入了一种概率编程语言,支持离散和连续采样、离散观测、仿射函数、(随机)分支和基于离散事件的条件。我们的主要工具是概率生成函数,它提供了一种紧凑的封闭形式分布表示,可以通过程序进行定义,从而实现后验概率、期望、方差和高阶矩的精确计算。
效果:我们的实验表明,Genfer通常比现有的精确推理工具PSI、Dice和Prodigy更快。在一系列现有精确工具无法解决的真实世界推理问题上,Genfer的性能与近似蒙特卡洛方法相当,同时避免了近似误差。
A Rigorous Link between Deep Ensembles and (Variational) Bayesian Methods
Veit David Wild Sahra Ghalebikesabi Dino Sejdinovic Jeremias Knoblauch
研究问题:建立贝叶斯、变分贝叶斯和集成方法之间的第一个数学严谨的联系。
动机:将深度学习中遇到的非凸优化问题重新表述为概率度量空间中的凸优化问题,以实现这一关键步骤。
方法:通过观察Wasserstein梯度流来研究广义变分推理,从而得出一个统一的理论来解释深度强化学习中常用的不确定性量化的各种看似不相关的方法。
效果:提出了一种新的集成方案,并证明了这些算法在概率度量空间上收敛到定义良好的全局最小值。
Entropic Neural Optimal Transport via Diffusion Processes
Nikita Gushchin Alexander Kolesov Alexander Korotin Dmitry P. Vetrov Evgeny Burnaev
研究问题:提出一种新的神经网络算法,用于计算可由样本访问的概率分布之间的熵最优传输(EOT)计划的基本问题。
动机:现有的大规模EOT方法与本算法不同,本算法是端到端的,只包含一个学习步骤,具有快速的推理过程,并允许处理小的熵正则化系数值,这在某些应用问题中尤为重要。
方法:该算法基于动态版本的EOT(被称为薛定谔桥问题)的鞍点 reformulation,是一个单步学习过程,具有快速推理过程。
效果:在几个大规模的EOT任务上,该方法表现出良好的性能。ENOT解算器的代码可以在 https://github.com/ngushchin/EntropicNeuralOptimalTransport 上找到。
A Measure-Theoretic Axiomatisation of Causality
Junhyung Park Simon Buchholz Bernhard Schölkopf Krikamol Muandet
研究问题:本文旨在寻找一种普遍接受的因果关系公理化方法。
动机:尽管因果关系在许多研究领域中都是核心概念,但目前还没有达成统一的公理化。
方法:将因果关系视为概率论的延伸,并研究当对系统进行干预时会发生什么,主张以科尔莫戈洛夫的概率测量理论公理化作为因果关系公理化的起点。为此,提出了一个由概率空间和一组称为因果核的转移概率核组成的因果空间的概念。
效果:提出的框架不仅严格基于测度理论,而且阐明了现有框架的长期局限性,例如循环、潜在变量和随机过程。
Characteristic Circuits
Zhongjie Yu Martin Trapp Kristian Kersting
研究问题:如何在现实世界的场景中可靠且高效地在不确定性下进行推理,同时捕捉数据中的复杂关系。
动机:概率电路(PCs)是一种可处理的高维概率分布模型,但学习异构数据上的概率电路具有挑战性,某些参数分布的密度无法用封闭形式表示,限制了其潜在应用。
方法:引入特征电路(CCs),这是一种在频域中对异构数据分布提供统一形式化表示的可处理概率模型。特征函数与概率测度之间的一对一关系使我们能够在异构数据域上学习高维分布,即使没有闭型密度函数也能进行高效的概率推理。
效果:实验表明,特征电路的结构和参数可以从数据中有效学习,并在常见的基准数据集上优于最先进的异构数据密度估计器。
Generalizing Nonlinear ICA Beyond Structural Sparsity
Yujia Zheng Kun Zhang
研究问题:非线性独立成分分析(ICA)的可识别性问题。
动机:现有的ICA方法需要额外的假设才能实现可识别性,且在实际应用中可能无法满足所有情况。
方法:提出了一种新的非线性ICA方法,该方法考虑了观测变量多于源、部分稀疏和源依赖性以及灵活的分组结构等一般情况,并证明了在这些情况下的可识别性。
效果:理论分析和实验结果均表明,该方法在合成数据和真实数据集上都具有良好的性能。
Implicit Variational Inference for High-Dimensional Posteriors
Anshuk Uppal Kristoffer Stensbo-Smidt Wouter Boomsma Jes Frellsen
研究问题:本文旨在提出一种新的方法,利用神经采样器来近似复杂高维空间中的多模态和相关后验分布。
动机:现有的贝叶斯模型在准确捕捉真实后验分布方面依赖于准确的采样,而现有的方法通常依赖于额外的判别网络和不稳定的对抗目标。
方法:我们提出了一种新方法,该方法通过局部线性化神经采样器来引入新的近似推理边界,以使用隐式分布。此外,我们还提出了一种新的采样器架构,首次实现了对数亿个潜在变量的隐式分布,通过使用可微数值近似解决了计算问题。
效果:实验结果表明,我们的方法能够恢复大型贝叶斯神经网络中各层之间的相关性,这是网络性能的关键因素,但也是最难实现的。在下游任务的实验中,我们的表达后验优于最先进的不确定性量化方法,验证了我们的训练算法的有效性和学习的隐式近似的质量。
Wasserstein Quantum Monte Carlo: A Novel Approach for Solving the Quantum Many-Body Schrödinger Equation
Kirill Neklyudov Jannes Nys Luca Thiede Juan Felipe Carrasquilla Alvarez qiang liu Max Welling Alireza Makhzani
研究问题:解决量子多体薛定谔方程是量子物理、量子化学和材料科学中的基本挑战。
动机:传统的量子变分蒙特卡洛方法优化目标难以最小化,需要使用自然梯度等二阶优化方法。深度学习方法通过神经网络表示丰富的波函数族,部分解决了这个问题。
方法:本文将能量泛函最小化从波函数空间转化为对应于粒子排列(反)对称波函数的玻恩分布空间,并将量子变分蒙特卡洛解释为该分布空间中的费雪-拉奥梯度流,然后进行到变分流形的投影步骤。
效果:我们提出了“Wasserstein Quantum Monte Carlo”(WQMC),该方法使用由Wasserstein度量诱导的梯度流,而不是费雪-拉奥度量,并对应于*传输*概率质量,而不是*传送*它。实验证明,WQMC的动态会导致更快地收敛到分子系统的基态。
The Rashomon Importance Distribution: Getting RID of Unstable, Single Model-based Variable Importance
Jon Donnelly Srikar Katta Cynthia Rudin Edward P Browne
研究问题:如何量化变量的重要性,特别是在多个模型对同一数据集的解释能力相等的情况下。
动机:现有的方法通常只针对给定的数据集和模型计算变量的重要性,这可能导致不同的研究者对同一数据得出冲突但同样有效的结论。此外,即使考虑到所有可能的解释,这些洞察也可能不会因为合理的数据扰动而泛化。
方法:提出了一种新的变量重要性框架,该框架可以量化变量在所有好模型中的重要性,并且在数据分布上是稳定的。这个框架非常灵活,可以与大多数现有的模型类别和全局变量重要性度量集成。
效果:通过实验证明,该框架可以在复杂的模拟设置中恢复变量重要性排名,其中其他方法失败。此外,还展示了该框架可以准确估计变量对于底层数据分布的真实重要性。在探索预测HIV感染者HIV载量的基因重要性的实际案例研究中,强调了一个以前未与HIV相关联的重要基因。
Common Ground in Cooperative Communication
Xiaoran Hao Yash Jhaveri Patrick Shafto
研究问题:本文旨在解决合作交流中的核心挑战——共同基础的问题,即如何拥有足够的共享知识和理解以成功进行交流。
动机:现有的合作交流模型都假设最强烈的共同基础形式,即完美和完全的知识共享,因此无法捕捉到合作交流的核心挑战。
方法:我们提出了一个合作交流的一般理论,该理论在数学上是有原则的,并在允许任意数据和假设表示的空间中明确定义了共同基础可能性的谱系,远超过完美和完全的知识共享。
效果:通过考虑参数化形式的共同基础,并将通信的数据选择和假设推理过程视为编码和解码,我们将此框架与现代机器学习中的强大模型变分自动编码器建立了联系。最后,我们进行了一系列实证模拟,以支持并详细阐述我们的理论结果。
Hierarchical clustering with dot products recovers hidden tree structure
Annie Gray Alexander Modell Patrick Rubin-Delanchy Nick Whiteley
研究问题:本文旨在提供一种新的视角来看待已经建立的凝聚式聚类算法,重点关注恢复层次结构。
动机:现有的凝聚式聚类算法在恢复数据生成的层次结构时存在不足,因此需要提出一种改进的方法。
方法:我们推荐了一种标准算法的简单变体,其中通过最大平均点积而不是最小距离或簇内方差来合并簇。我们还理解了在这种模型中,层次信息如何转化为可以从数据中恢复的树形几何结构。
效果:我们在真实数据上的表现优于现有方法(如UPGMA、Ward方法和HDBSCAN),证明了我们的新方法可以更好地恢复数据的层次结构。
Normalizing flow neural networks by JKO scheme
Chen Xu Xiuyuan Cheng Yao Xie
研究问题:本文旨在开发一种高效的生成模型,用于采样和似然估计,特别是在高维空间中。
动机:现有的工作采用特殊的网络架构和流轨迹的正则化来实现流模型,但这种方法在计算和内存消耗上较高。
方法:受Jordan-Kinderleherer-Otto (JKO)方案的启发,本文提出了一种名为JKO-iFlow的神经ODE流网络,该网络通过连续堆叠残差块,避免了SDE轨迹的采样和得分匹配或变分学习,从而降低了内存负载和端到端训练的难度。
效果:实验结果显示,与现有的流和扩散模型相比,JKO-iFlow网络在显著降低计算和内存成本的同时,取得了相当的性能。
Inferring the Future by Imagining the Past
Kartik Chandra Tony Chen Tzu-Mao Li Jonathan Ragan-Kelley Joshua B. Tenenbaum
研究问题:如何模拟人类从静态快照中快速、灵活地推断出复杂序列的过去和未来事件。
动机:人类能够从静态场景中推断出复杂的动态事件,这种能力在许多领域都有应用价值。
方法:基于认知科学的研究,提出了一种与人类直觉高度相关的蒙特卡洛算法,该算法只需要少量样本即可进行推断。
效果:该算法在各种领域中的推断结果与人类直觉高度相关,并且只使用了少量样本。同时,该算法还发现了推断问题与蒙特卡洛路径追踪之间的意外联系,将计算机图形学领域的数十年思想应用于这一看似无关的心理任务。
AMDP: An Adaptive Detection Procedure for False Discovery Rate Control in High-Dimensional Mediation Analysis
Jiarong Ding Xuehu Zhu
研究问题:高维中介分析中的多重检验问题,以及如何准确评估检测过程的不确定性。
动机:现有的方法在处理高维中介分析时,要么没有进行校准就构造p值,要么忽视了跨测试的联合信息,导致FDR控制不足或多重假设的排名规则非最优。
方法:本文提出了一种适应性中介检测程序(AMDP),通过优化排名规则和提出数据驱动的策略来确定中介选择的阈值,以在高维中介分析中渐进地控制FDR。
效果:数值研究表明,AMDP在合成和真实数据集上的表现优于现有方法。
Encoding Time-Series Explanations through Self-Supervised Model Behavior Consistency
Owen Queen Thomas Hartvigsen Teddy Koker Huan He Theodoros Tsiligkaridis Marinka Zitnik
研究问题:时间序列模型的解释具有独特挑战性,需要确定驱动模型预测的时间序列信号的位置以及它们与可解释的临时模式的匹配。
动机:虽然其他模态的解释器可以应用于时间序列,但其归纳偏置不能很好地转移到本质上具有挑战性的时间序列解释。
方法:我们提出了TimeX,一种用于训练解释器的时间序列一致性模型。TimeX训练一个可解释的替代模型来模仿预训练时间序列模型的行为。它通过引入模型行为一致性来解决模型忠实性问题,这是一种保留由预训练模型在潜在空间中产生的关系的新颖表述方式,同时保留由TimeX在潜在空间中产生的关系。
效果:我们在八个合成和现实世界的数据集中评估了TimeX,并将其性能与最先进的解释性方法进行了比较。我们还使用生理时间序列进行了案例研究。定量评估表明,在所有数据集中,TimeX在每个指标上都实现了最高或第二高的性能。通过案例研究,我们展示了TimeX的新组件有潜力训练出忠实、可解释的模型,以捕捉预训练时间序列模型的行为。
Streaming PCA for Markovian Data
Syamantak Kumar Purnamrita Sarkar
研究问题:本文研究了从不可约、非周期性和可逆马尔科夫链开始的平稳分布中,如何估计协方差矩阵未知特征向量的问题。
动机:在数据只能通过马尔科夫链蒙特卡洛(MCMC)类型算法采样,并且目标是对平稳分布的参数进行推理的场景中,Oja的算法可以提供解决方案。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
MMD-Fuse: Learning and Combining Kernels for Two-Sample Testing Without Data Splitting
Felix Biggs Antonin Schrab Arthur Gretton
研究问题:如何最大化基于最大均值差异(MMD)的两样本检验的效力。
动机:目前的MMD检验方法在处理有限集数据时存在不足,需要改进。
方法:提出一种新的统计方法,通过调整定义MMD所用的核集合来最大化检验效力。对于有限集数据,该方法将各个核下的归一化MMD值通过加权软最大值进行组合。同时,证明了该统计量在假设检验中的指数集中边界。此外,还提出了一种与数据相关但排列独立的核选择方法,避免了数据分割。
效果:该方法适用于合成低维和现实世界的高维数据,并在检验效力方面优于当前最先进的核检验方法。
Fast Approximation of Similarity Graphs with Kernel Density Estimation
Peter Macgregor He Sun
研究问题:如何有效地从一组数据点中构建一个稀疏的、保持原有聚类结构的相似性图。
动机:传统的相似性图构建方法时间复杂度高,空间复杂度与数据量呈二次关系,需要改进。
方法:提出一种基于核密度估计的新算法框架,可以用于任意核函数,以构建稀疏的、保持原有聚类结构的相似性图。
效果:在多种数据集上,新方法比scikit-learn和FAISS库中的实现表现出更优的性能。
Provable benefits of annealing for estimating normalizing constants: Importance Sampling, Noise-Contrastive Estimation, and beyond
Omar Chehab Aapo Hyvarinen Andrej Risteski
研究问题:如何有效地估计归一化常数(配分函数)?
动机:目前的蒙特卡洛方法在设计选择上存在不确定性,需要一种理论来指导。
方法:通过研究不同设计选择的渐近估计误差,包括使用哪种估计器、采用哪种分布路径以及是否使用路径等。
效果:研究发现,噪声对比估计比重要性采样估计更有效;几何路径可以将估计误差从指数函数降低到多项式函数;算术路径在某些极限下可以提供优于常用的几何路径的最佳性质。基于这些理论,提出了一种两步估计器来有效逼近最优路径。
Theoretical and Practical Perspectives on what Influence Functions Do
Andrea Schioppa Katja Filippova Ivan Titov Polina Zablotskaia
研究问题:影响函数(IF)被用作通过训练数据解释模型预测的技术,但其在现代深度神经网络中的预测能力存在局限。
动机:现有的IF方法在估计上存在问题,导致其预测效果不佳。
方法:分析IF方法中存在的五个问题,包括凸性、数值稳定性、训练轨迹和参数发散等,并使用BERT和ResNet模型进行验证。
效果:虽然大部分假设可以得到解决,但参数发散对IF的预测能力构成了明显的限制。同时,即使某些假设不成立,IF仍可用于模型调试和纠正错误。
Multi Time Scale World Models
Vaisakh Shaj Saleh GHOLAM ZADEH Ozan Demir Luiz Ricardo Douat Gerhard Neumann
研究问题:如何让机器通过学习多层次的时间抽象世界模型,处理复杂的不确定性预测。
动机:现有的学习方法在处理复杂不确定性预测和多层次时间抽象的世界模型时存在困难。
方法:提出一种名为多时间尺度状态空间(MTS3)的统计学习框架,用于学习多层次的时间抽象世界模型。
效果:实验证明,MTS3在多个系统识别基准测试中,包括复杂的模拟和现实世界动态系统,都优于最近的方法。
Gaussian Partial Information Decomposition: Bias Correction and Application to High-dimensional Data
Praveen Venkatesh Corbett Bennett Sam Gale Tamina K. Ramirez Greggory Heller Severine Durand Shawn R Olsen Stefan Mihalas
研究问题:如何有效地计算和估计多变量高斯分布上的部分信息分解(PID)。
动机:随着神经科学实验技术的进步,我们能够同时记录多个大脑区域的数千个神经元的活动,这需要强大的计算工具来分析任务相关信息如何在几个大脑区域之间表示和传递。部分信息分解(PID)作为一种工具,可以量化两个或更多大脑区域关于任务相关信息的独特、冗余和协同信息量,但其在实际应用中的计算挑战以及估计的偏差和方差等统计问题尚未得到充分解决。
方法:本文提出了一种新方法,可以在多变量高斯分布上有效计算和估计PID。
效果:实证研究表明,该方法满足直观的可加性属性,即使在高维情况下也能恢复基本事实。此外,我们还首次提出了一种方法来纠正有限样本大小下的PID估计偏差。最后,我们证明,我们的高斯PID能有效描述老鼠大脑的区域间交互,当刺激在行为上相关时,视觉区域之间的冗余更高。
Bifurcations and loss jumps in RNN training
Lukas Eisenmann Zahra Monfared Niclas Alexander Göring Daniel Durstewitz
研究问题:本文旨在探讨循环神经网络(RNN)在处理序列数据和推断动态系统时的训练过程及其复杂任务的解决方式。
动机:RNN中的分岔现象是动态系统中的一种重要现象,包括RNN在内,指的是当系统的某个或多个参数变化时,系统动态行为发生拓扑(定性)变化。了解RNN的分岔结构将有助于推导出其许多计算和动态属性,如对参数变化的敏感性或训练过程中的行为。
方法:本文首先为一类基于ReLU的RNNs数学证明了某些分岔确实与损失梯度趋向于无穷大或零有关。然后引入了一种新颖的启发式算法,用于检测基于ReLU的RNNs中的所有固定点和k-周期以及它们的存在和稳定区域,即参数空间中的分岔流形。
效果:与先前寻找固定点和常用连续方法的数字算法相比,我们的算法提供了精确的结果,并以令人惊讶的良好缩放行为返回高阶的固定点和周期。我们在RNNs的训练过程分析中展示了该算法的应用,并发现最近引入的广义教师强制技术完全避免了训练中的某种类型的分岔。因此,除了促进对训练后的RNNs进行DST分析外,我们的算法还为分析训练过程本身提供了强大的工具。
Hypernetwork-based Meta-Learning for Low-Rank Physics-Informed Neural Networks
Woojin Cho Kookjin Lee Donsub Rim Noseong Park
研究问题:如何在许多查询场景中,对不断变化的PDE输入参数进行高效的数值模拟?
动机:当前,在各种工程和应用科学应用中,需要对部分微分方程(PDEs)进行重复的数值模拟,但现有的物理信息神经网络(PINNs)需要花费大量时间进行训练,不适合处理大量的查询。
方法:我们提出了一种轻量级的低秩PINNs,该模型仅包含数百个模型参数,并结合了一种基于超网络的元学习算法,可以有效地近似不同PDE输入参数下的解。
效果:实验证明,该方法能有效克服PINNs的"失败模式"问题,并在处理大量查询时表现出高效性。
Physics-Driven ML-Based Modelling for Correcting Inverse Estimation
Ruiyuan Kang Tingting Mu Panos Liatsis Dimitrios Kyritsis
研究问题:在科学和工程领域部署机器学习估计器时,如何避免可能导致灾难性后果的失败估计。
动机:解决科学和工程领域中因失败状态估计导致的严重后果,如航空发动机设计。
方法:利用物理定律指导的模拟和性能指标,通过优化来检测并修正失败的状态估计。提出了一种名为GEESE的新方法,包括混合代理误差模型和两种生成模型。
效果:在三个真实世界的科学和工程逆问题上进行测试,结果显示GEESE在找到可行的状态修正方面失败次数最少,且总体上需要物理评估的频率较低。
Debias Coarsely, Sample Conditionally: Statistical Downscaling through Optimal Transport and Probabilistic Diffusion Models
Zhong Yi Wan Ricardo Baptista Anudhyan Boral Yi-Fan Chen John Anderson Fei Sha Leonardo Zepeda-Nunez
研究问题:如何利用未配对的数据进行统计降尺度?
动机:现有的统计降尺度方法需要配对数据,且在低频率内容不匹配时无法正确匹配物理量的统计数据。
方法:提出了一种两阶段的概率框架,通过最优传输映射进行去偏步骤,通过后验条件采样的概率扩散模型进行上采样步骤。
效果:该方法在一维和二维流体流问题上进行了演示,可以从低分辨率输入生成高分辨率输出,并正确匹配物理量的统计数据。
Provable benefits of score matching
Chirag Pabbaraju Dhruv Rohatgi Anish Sevekari Holden Lee Ankur Moitra Andrej Risteski
研究问题:寻找替代最大似然估计概率分布的方法,解决计算常数比例的难题。
动机:最大似然估计在处理某些具有固定阶数和参数半径的指数族分布时,优化最大似然损失是NP难的,而其统计效率又与参数的半径和环境维度呈多项式关系。
方法:提出使用得分匹配法来估计这些分布的概率,该方法避免了计算常数比例,且其优化过程具有计算和统计效率。
效果:实验结果表明,得分匹配法在优化过程中既高效又具有统计效率,可以作为处理这类指数族分布的有效方法。
Unifying Predictions of Deterministic and Stochastic Physics in Mesh-reduced Space with Sequential Flow Generative Model
Luning Sun Xu Han Han Gao Jian-Xun Wang Liping Liu
研究问题:如何在非结构化网格中准确预测动力系统?
动机:许多动力系统由于各种因素(如混沌性)引入了不可忽视的随机性,因此需要一个统一的框架来捕捉这些系统在滚动中的确定性和随机性成分。
方法:受再生学习启发,提出一种新的模型,该模型结合生成网络和序列网络来模拟动力系统。具体来说,我们使用自动编码器在低维空间中学习全空间物理变量的紧凑表示。然后,我们将变压器与条件正态流模型相结合,以模拟潜在表示的时间序列。
效果:新模型在确定性和随机系统中进行评估。该模型优于几个竞争性基线模型,并对确定性系统的预测更准确。其自身的预测误差也反映在其不确定性估计中。当预测随机系统时,提出的模型生成高质量的滚动样本。这些样本的均值和方差很好地匹配了从昂贵的数值模拟计算得出的样本统计数据。
Distributionally Robust Skeleton Learning of Discrete Bayesian Networks
Yeshu Li Brian D Ziebart
研究问题:从可能被破坏的数据中学习一般离散贝叶斯网络的精确骨架。
动机:考虑到异常值的影响,提出最坏情况风险优化方法来处理数据损坏问题。
方法:基于分布鲁棒优化和回归方法,在有限Wasserstein距离或KL散度内优化最不利风险。
效果:对于有界度数图,我们的方法在成功结构学习上具有对数样本复杂性的非渐近保证。数值研究验证了我们的方法在合成和真实数据集上的有效性。
Kernel Quadrature with Randomly Pivoted Cholesky
Ethan Nicholas Epperly Elvira Moreno Ferreira
研究问题:本文旨在提出一种新的积分规则,用于在再生核希尔伯特空间中的函数。
动机:现有的核积分方法或者精度较低,或者需要解决计算上具有挑战性的采样问题。
方法:采用随机轴转置Cholesky采样算法生成节点,形成新的数值计算过程。
效果:理论和数值结果表明,随机轴转置Cholesky快速且积分误差率与基于连续体积采样、细化和重组的计算密集型积分方案相当。该方法易于适应具有任意内核的复杂几何形状,为核积分开辟了新的可能性。
Bayesian target optimisation for high-precision holographic optogenetics
Marcus Triplett Marta Agnieszka Gajowa Hillel Adesnik Liam Paninski
研究问题:如何克服光遗传学中非目标神经元的无意激活问题,实现对神经群体活动的精确光遗传控制。
动机:目前的光遗传学技术由于光线不能完美地限制在目标神经元上,导致非目标神经元的无意激活,影响了其精度。
方法:提出一种名为贝叶斯目标优化的新型计算方法,通过非参数贝叶斯推理来模拟光遗传刺激下的神经反应,并优化激光功率和光学目标位置以最小化OTS。
效果:模拟和体外实验数据的验证表明,贝叶斯目标优化显著降低了所有测试条件下的OTS,实现了光遗传刺激的精度显著提高。
On Learning Necessary and Sufficient Causal Graphs
Hengrui Cai Yixin Wang Michael Jordan Rui Song
研究问题:现有的方法试图在复杂的大规模图中发现所有变量之间的因果关系,但在实践中,只有图中的一小部分变量与感兴趣的结果相关。
动机:为了解决这一问题,本文提出了一种新的方法,通过学习一类仅包含与感兴趣结果相关的因果关系的必要和充分图(NSCG),即“因果特征”。
方法:该方法的核心思想是使用“因果关系的概率”来系统地评估图中特征的重要性,从而识别出与感兴趣结果相关的子图。为此,我们开发了一种必要的和充分的因果结构学习(NSCSL)算法,通过建立因果关系的概率和特征的自然因果效应之间的关系。
效果:通过对模拟数据和真实数据的实证研究,我们发现NSCSL优于现有的算法,并能够揭示出与目标遗传性状相关的关键的酵母基因。
Optimal Exploration for Model-Based RL in Nonlinear Systems
Andrew Wagenmaker Guanya Shi Kevin Jamieson
研究问题:如何有效地学习和控制未知的非线性动力系统。
动机:在实际应用中,学习一个良好控制器的成本可能会受到某些系统参数的重大影响,因此需要关注这些参数的学习。
方法:通过最小化控制器损失来估计系统参数,并开发一种算法来有效探索系统以减少这种度量中的不确定性。
效果:实验证明该方法在现实的非线性机器人系统中是有效的。
SE(3) Equivariant Augmented Coupling Flows
Laurence Illing Midgley Vincent Stimper Javier Antoran Emile Mathieu Bernhard Schölkopf José Miguel Hernández-Lobato
研究问题:如何使耦合正则化流在保留快速采样和密度评估的同时,具有物理系统的SE(3)和置换不变性?
动机:标准的耦合架构阻止了对原子的笛卡尔坐标进行操作的流具有物理系统的SE(3)和置换不变性。
方法:通过在附加的增强维度上进行坐标分割,提出一种保持SE(3)和置换等变的耦合流。在每一层中,该流将原子的位置映射到学习的SE(3)不变基中,然后应用标准的流变换(如单调有理二次样条),最后返回到原始基。
效果:当在DW4、LJ13和QM9-positional数据集上训练时,我们的流与等变连续正则化流竞争,同时允许快一个数量级的采样。此外,我们是第一个仅通过建模其原子的笛卡尔位置来学习丙氨酸二肽的完整玻尔兹曼分布的。最后,我们证明我们的流可以仅使用它们的能函数来近似地从DW4和LJ13粒子系统的玻尔兹曼分布中进行采样。
GloptiNets: Scalable Non-Convex Optimization with Certificates
Gaspard Beugnot Julien Mairal Alessandro Rudi
研究问题:本文旨在提出一种新的非凸优化方法,用于处理超立方体或环面上的平滑函数。
动机:传统的优化方法依赖于代数性质,而我们的方法则利用目标函数在傅里叶频谱衰减中的固有规律性。
方法:通过定义一个易于处理的模型族,我们同时获得了精确的证书和利用了优化神经网络的强大计算技术。
效果:将该方法应用于中等维度但有数千个系数的多项式时,其性能超过了基于Lasserre层次结构的最新优化方法,解决了竞争对手无法解决的问题。
Posterior Contraction Rates for Matérn Gaussian Processes on Riemannian Manifolds
Paul Rosa Viacheslav Borovitskiy Alexander Terenin Judith Rousseau
研究问题:本文探讨了在几何设置中使用高斯过程进行不确定性量化的问题,特别是在输入位于黎曼流形上时。
动机:近年来,已经开发出了在几何设置中处理这些模型的计算工具,这引发了一个问题:能否从理论上证明这些内在模型会导致比简单地将所有相关量嵌入到欧几里得空间并使用普通欧几里得高斯过程的限制更好的性能?
方法:本文证明了定义在紧致黎曼流形上的内在Matérn高斯过程的最佳收缩率,并证明了使用迹和延拓定理在流形和环境索伯列夫空间之间的类似速率的外在过程。
效果:通过一系列的例子,本文展示了内在过程在实践中可以实现更好的性能。因此,本文的工作表明,需要更精细的分析来区分不同层次的几何高斯过程的数据效率,特别是在涉及小数据集规模和非渐进行为的情况下。
CS4ML: A general framework for active learning with arbitrary data based on Christoffel functions
Juan M Cardenas Ben Adcock Nick Dexter
研究问题:本文提出了一种适用于回归问题的主动学习通用框架。
动机:目前的主动学习框架仅支持目标函数的点样本,而我们的框架允许更一般类型的数据,如傅立叶数据、向量值数据、连续曲线数据和多模态数据。
方法:我们考虑了根据有限数量的采样度量和任意非线性近似空间(模型类)进行随机采样,并引入了“广义克里斯托费尔函数”的概念,以优化采样度量。
效果:在科学计算中,主动学习通常很有用,因为生成数据通常是昂贵的。我们在多项式梯度增强学习、使用生成对抗网络的核磁共振成像(MRI)以及使用物理信息神经网络(PINNs)解决偏微分方程(PDEs)的自适应采样方面展示了该框架的有效性。
Tree Variational Autoencoders
Laura Manduchi Moritz Vandenhirtz Alain Ryser Julia E Vogt
研究问题:提出一种新的生成性层次聚类模型——树变分自动编码器(TreeVAE)。
动机:现有的模型在处理隐藏数据结构时存在局限性,需要一种能够自适应发现最优树以编码潜在变量之间依赖关系的模型。
方法:通过将样本根据其内在特性进行分层划分,TreeVAE能够揭示数据中隐藏的结构。同时,利用专门的叶子解码器,TreeVAE的树基生成架构实现了轻量级的条件推理并提升了生成性能。
效果:实验证明,TreeVAE能够在各种数据集上发现潜在的簇并找到不同组之间的有意义的层次关系,包括真实世界的成像数据。此外,TreeVAE提供的对数似然下限比序列对应模型更具竞争力。最后,由于其生成性质,TreeVAE能够通过条件采样从发现的簇中生成新的样本。
Auditing Fairness by Betting
Ben Chugg Santiago Cortes-Gomez Bryan Wilder Aaditya Ramdas
研究问题:我们提供了一种实用、高效和非参数化的方法,用于审计已部署的分类和回归模型的公平性。
动机:与以往依赖固定样本量的工作不同,我们的方法具有连续性,可以对不断流入的数据进行持续监控,非常适合追踪现实世界系统的公平性。
方法:我们允许数据由概率策略收集,而不是从总体中均匀抽样。这使得审计可以在为其他目的收集的数据上进行。此外,此策略可能会随时间改变,不同的子群体可能会使用不同的策略。最后,我们的方法可以处理由于模型或底层人口变化引起的分布偏移。
效果:我们的方法基于最新的随时有效推理和博弈论统计——特别是“通过下注测试”框架——取得了进展。这些联系确保了我们的方法具有可解释性、快速性和易于实施的特点。我们在三个基准公平性数据集上展示了该方法的有效性。
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision
Ayush Tewari Tianwei Yin George Cazenavette Semon Rezchikov Joshua B. Tenenbaum Fredo Durand William T. Freeman Vincent Sitzmann
研究问题:现有的去噪扩散模型在训练样本易获取的场景下表现良好,但在真实场景中,训练样本可能无法直接获得,如何让模型在这种情况下也能进行有效学习?
动机:例如在逆向图形学中,我们的目标是根据给定的2D图像生成3D场景分布的样本,但无法获取真实的3D场景,只能得到部分观察信息。
方法:提出一种新的去噪扩散概率模型,通过将可微分的前向模型直接整合到去噪过程中,使模型能从未被直接观察的信号分布中进行采样。
效果:在三个具有挑战性的计算机视觉任务上验证了该方法的有效性。例如,在逆向图形学中,模型可以直接从与单个2D输入图像对齐的3D场景分布中进行采样。
Conditional score-based diffusion models for Bayesian inference in infinite dimensions
Lorenzo Baldassari Ali Siahkoohi Josselin Garnier Knut Solna Maarten V. de Hoop
研究问题:如何有效地解决无限维函数空间中的线性逆问题。
动机:虽然基于得分的扩散模型(SDMs)在有限维向量空间中解决了各种线性逆问题,但在无限维函数空间中的应用却鲜有涉及。
方法:提出了一种理论上有根据的方法,通过使用“条件化SDMs”来从无限维贝叶斯线性逆问题的后验分布中进行采样。
效果:证明了在无限维空间中,条件去噪估计器这种在有限维中成功的方法同样适用。并通过大量的数值例子验证了这种方法的有效性和可行性。
Stein $\Pi$-Importance Sampling
Congye Wang Wilson Ye Chen Heishiro Kanagawa Chris J. Oates
研究问题:如何设计适用于Stein重要采样的马尔科夫链。
动机:Stein差异已成为改进马尔科夫链蒙特卡罗输出的强大工具,但如何设计适合此类后处理的马尔科夫链的问题尚未解决。
方法:本论文研究了Stein重要性采样,其中为$Pi$不变马尔科夫链访问的状态分配权重以获得目标$P$的一致近似值。
效果:令人惊讶的是,最优选择的$Pi$与目标$P$并不相同;因此,我们提出了一种基于新颖变分论证的$\Pi$的显式构造。对于PosteriorDB基准测试中的约70%的任务,报告了比$P$-不变马尔科夫链的类似后处理显著的改进。
PDE-Refiner: Achieving Accurate Long Rollouts with Neural PDE Solvers
Phillip Lippe Bastiaan S. Veeling Paris Perdikaris Richard E Turner Johannes Brandstetter
研究问题:如何提高深度神经网络在解决时间依赖偏微分方程(PDEs)上的长期预测准确性和稳定性。
动机:传统的PDE求解方法计算成本高,因此基于深度神经网络的替代方案受到了关注。然而,这些神经PDE求解器需要能够提供长期准确的预测,这是一个难题。
方法:本研究分析了常见的时间推进策略,发现在高频解决方案中忽视了非主导的空间频率信息是限制稳定准确预测的主要障碍。受最近扩散模型进展的启发,提出了PDE-Refiner模型,通过多步细化过程更准确地模拟所有频率成分。
效果:在复杂的流体动力学基准测试中验证了PDE-Refiner,其稳定的准确预测性能超过了最先进的模型,包括神经、数值和混合神经数值架构。此外,PDE-Refiner大大提高了数据效率,因为去噪目标隐含地引入了一种新的频谱数据增强形式。最后,PDE-Refiner与扩散模型的联系使其能够准确有效地评估模型的预测不确定性。
Partial Counterfactual Identification of Continuous Outcomes with a Curvature Sensitivity Model
Valentyn Melnychuk Dennis Frauen Stefan Feuerriegel
研究问题:本文旨在解决现有连续结果反事实推理方法对潜在结构因果模型的强假设问题,并尝试进行部分反事实识别。
动机:现有的连续结果反事实推理方法主要关注点识别,并对潜在的结构因果模型做出了强烈的非自然假设。
方法:本文提出了一种新的敏感性模型——曲率敏感性模型,通过限制函数水平集的曲率来获取信息边界。同时,将曲率敏感性模型实现为一种新的深度生成模型——增强型伪可逆解码器。
效果:实验证明,增强型伪可逆解码器是有效的。据我们所知,这是我们提出的第一种针对具有连续结果的马尔科夫结构因果模型的部分识别模型。
Adversarial Robustness in Graph Neural Networks: A Hamiltonian Approach
Kai Zhao Qiyu Kang Yang Song Rui She Sijie Wang Wee Peng Tay
研究问题:本文旨在研究图神经网络(GNNs)对对抗性扰动的脆弱性,包括那些同时影响节点特征和图拓扑的扰动。
动机:目前的GNNs在面对对抗性攻击时存在脆弱性,需要寻找新的方法和理论来提高其鲁棒性。
方法:通过借鉴物理学原理,使用保守哈密顿流构建GNNs,并对比不同神经流GNNs在各种基准数据集上的对抗鲁棒性。
效果:实验结果表明,利用保守哈密顿流和李亚普诺夫稳定性构建的GNNs在对抗性扰动下的鲁棒性有显著提高。
A Cross-Moment Approach for Causal Effect Estimation
Yaroslav Kivva Saber Salehkaleybar Negar Kiyavash
研究问题:在存在潜在混淆因素的线性结构因果模型中,当只有一个代理变量可用时,如何估计治疗对结果的因果效应。
动机:现有的方法需要对数据生成模型做出限制性假设或至少有两个代理变量,我们提出了一种新的方法来解决这个问题。
方法:我们提出使用治疗、结果和代理变量之间的交叉矩来估计因果效应。特别是,如果线性SCM中的潜在混淆因素是非高斯的,那么通过简单的算术运算就可以从交叉矩中识别出因果效应。
效果:我们的实验表明,该方法在估计因果效应方面是有效的。
Outlier-Robust Gromov-Wasserstein for Graph Data
Lemin Kong Jiajin Li Jianheng Tang Anthony Man-Cho So
研究问题:如何有效地比较和对齐不同度量空间上的概率分布,特别是在处理异常值时。
动机:当前广泛使用的Gromov-Wasserstein距离在处理异常值时存在较大误差,需要改进。
方法:提出一种称为RGW的新的、稳健的Gromov-Wasserstein距离版本,通过乐观地扰动边际约束并在基于Kullback-Leibler散度的模糊集合内进行操作。同时,开发了一种计算效率高且理论证明可行的Bregman近端交替线性化最小化算法。
效果:实验验证了理论结果,并展示了RGW在真实世界的图学习任务(如子图匹配和部分形状对应)上的有效性。
Sharp Spectral Rates for Koopman Operator Learning
Vladimir R Kostic Karim Lounici Pietro Novelli massimiliano pontil
研究问题:如何从数据中学习Koopman算子及其谱分解。
动机:非线性动力系统可以通过相关的Koopman算子进行描述,其作用在时间上向前演化系统的每个可观察量。
方法:我们首次提出了非渐近的Koopman特征值和特征函数的学习界限,并分析了两种流行的估计器:扩展动态模式分解(EDMD)和降维回归(RRR)。
效果:我们的结果主要依赖于对操作数误差的新的最小最大估计界限,这可能具有独立的兴趣。我们的谱学习界限是由同时控制操作数误差和估计的特征函数的新的距离度量功能性驱动的。这些界限表明,EDMD和RRR的方差相似,但EDMD受到较大的偏差影响,可能会对其学习速度产生不利影响。我们的研究结果为涌现伪特征值的问题提供了新的见解,这是一个众所周知的经验问题。数值实验说明了在实践中界限的影响。
A Dynamical System View of Langevin-Based Non-Convex Sampling
Mohammad Reza Karimi Jaghargh Ya-Ping Hsieh Andreas Krause
研究问题:非凸采样是机器学习中的关键挑战,对于深度学习中的非凸优化和近似概率推理至关重要。
动机:尽管其重要性,但理论上仍存在一些重要挑战:现有保证的缺点在于缺乏对最后迭代的保证,除了随机梯度兰格文动力学的基本方案外,目前对此了解甚少。
方法:我们开发了一个新颖的框架,通过利用动力系统理论的几种工具来解决上述问题。我们的主要结果是,对于一类最先进的采样方案,它们在Wasserstein距离上的最后迭代收敛可以归结为对其连续时间对应物的研究,这被更好地理解。
效果:结合MCMC采样的标准假设,我们的理论立即产生了许多先进的采样方案(如镜像兰格文、邻近、随机化中点和龙格-库塔方法)的最后迭代Wasserstein收敛。
Tree-Based Diffusion Schrödinger Bridge with Applications to Wasserstein Barycenters
Maxence Noble Valentin De Bortoli Arnaud Doucet Alain Durmus
研究问题:本文旨在解决多边际最优传输(mOT)的问题,特别是在树状二次成本函数下的熵版本。
动机:现有的最优传输方法在处理具有预设边际的分布时存在困难,因此需要一种能够最小化积分成本函数的方法。
方法:本文提出了一种基于树的扩散薛定谔桥(TreeDSB)算法,这是一种动态和连续的状态空间方法,可以看作是多边际Sinkhorn算法的动态连续版本。
效果:该方法在高维情况下具有良好的应用性,如图像插值和贝叶斯融合,实验结果表明,该方法能有效计算Wasserstein重心,即树状mOT问题的解决方案。
ARTree: A Deep Autoregressive Model for Phylogenetic Inference
Tianyu Xie Cheng Zhang
研究问题:设计灵活的概率模型以处理树状结构,这对于开发高效的系统发育推断方法很重要。
动机:先前的研究通常通过手动设计的启发式特征来利用树状结构的相似性,这需要专业知识并且可能受到近似能力的限制。
方法:本文提出了一种基于图神经网络(GNNs)的深度自回归模型,称为ARTree,用于进行系统发育推断。通过将树状结构分解为一系列叶节点添加操作,并基于可学习的拓扑特征通过GNN对涉及的条件分布进行建模,ARTree可以在不使用启发式特征的情况下提供丰富的树状结构分布族,且具有简单的采样算法。
效果:我们在一个具有挑战性的实测数据树状结构密度估计和变分贝叶斯系统发育推断问题上展示了我们的方法的有效性和效率。
Newton–Cotes Graph Neural Networks: On the Time Evolution of Dynamic Systems
Lingbing Guo Weiqing Wang Zhuo Chen Ningyu Zhang Zequn Sun Yixuan Lai Qiang Zhang Huajun Chen
研究问题:如何提高对系统动态的预测精度。
动机:现有的基于图神经网络的方法在预测系统未来状态时,其速度积分函数是时间恒定的,这限制了预测的准确性。
方法:提出一种新的预测方法,该方法使用牛顿-科特斯公式进行多次速度估计以预测积分,并从理论上证明了这种方法的有效性。
效果:通过在多个基准测试上的大量实验,证明这种方法比现有技术具有更高的准确性和稳定性。
Score-based Generative Modeling through Stochastic Evolution Equations in Hilbert Spaces
Sungbin Lim Eunbi Yoon Taehyun Byun Taewon Kang Seungwoo Kim Kyungjae Lee Sungjoon Choi
研究问题:本文旨在探讨使用随机微分方程在希尔伯特空间中进行概率扩散模型和随机演化方程之间的桥梁构建。
动机:通过将随机微分方程应用到希尔伯特空间,可以扩展其在样本空间和演化算子方面的适用性,从而包含最近的扩散模型变化,如生成功能性数据或用图像变换替换漂移系数。
方法:推导出一种广义的时间反转公式,构建了概率扩散模型和随机演化方程之间的桥梁,并提出了称为希尔伯特扩散模型(HDM)的基于分数的生成模型。结合傅里叶神经算子,验证了HDM在从功能性数据集采样函数方面的优越性。
效果:实验结果表明,HDM在运动合成任务中表现出强大的力量,利用希尔伯特空间中的维纳过程。最后,对图像数据集的实证结果也验证了HDM与使用热传导的扩散模型之间的联系,揭示了探索演化算子和样本空间的潜力。
Unpaired Multi-Domain Causal Representation Learning
Nils Sturma Chandler Squires Mathias Drton Caroline Uhler
研究问题:寻找由因果相关的潜在变量组成的数据表示。
动机:在多个可能共享因果表示的领域中,我们可以获得数据,但不同领域的观察值是未配对的,即我们只观察到每个领域的边际分布,而不是它们的联合分布。
方法:在论文中,我们为线性设置中的联合分布和共享因果图的可识别性提供了充分条件。如果可以从每个领域的边际分布中唯一恢复联合分布和共享的因果表示,那么识别就成立。我们将结果转化为一种恢复共享潜在因果图的实用方法。
效果:实验结果表明,该方法可以在各种知识驱动任务上取得显著改进,并在其他常见的NLP任务上与最先进的BERT模型相媲美。
Compression with Bayesian Implicit Neural Representations
Zongyu Guo Gergely Flamich Jiajun He Zhibo Chen José Miguel Hernández-Lobato
研究问题:如何有效地压缩数据,同时保持高质量的重建。
动机:目前的压缩方法在量化到低比特精度时会显著降低重建质量。
方法:提出通过过拟合变分贝叶斯神经网络对数据进行压缩,并使用相对熵编码压缩近似后验权重样本,而不是对其进行量化和熵编码。
效果:该方法在图像和音频压缩方面表现出色,同时保持简单性。
Fast Optimal Transport through Sliced Generalized Wasserstein Geodesics
Guillaume Mahey Laetitia Chapel Gilles Gasso Clément Bonet Nicolas Courty
研究问题:提出一种新的平方Wasserstein距离的代理,称为min-SWGG,基于两个输入分布的最佳一维投影所诱导的传输映射。
动机:在许多涉及概率度量的应用中,Wasserstein距离和相关的最优传输计划已被证明是有用的。
方法:通过最佳一维投影对两个输入分布进行传输映射,得到min-SWGG。同时,我们还提供了一种快速计算方案,适用于梯度下降优化。
效果:实验证据表明,min-SWGG在各种情况下都有其优势,如梯度流、形状匹配和图像着色等。
Safety Verification of Decision-Tree Policies in Continuous Time
Christian Schilling Anna Lukina Emir Demirović Kim Guldstrand Larsen
研究问题:如何为由决策树控制的安全系统提供保证。
动机:尽管决策树作为学习基础控制策略的可解释替代模型越来越受欢迎,但为其提供安全保证仍是一个开放的挑战。
方法:本文提出了一种直接验证连续时间决策树控制系统的方法,其核心是利用决策树结构通过决策节点传播基于集合的近似值。
效果:通过对几个模仿非线性系统中神经网络策略的决策树进行提炼,我们证明了该方法的有效性。
Squared Neural Families: A New Class of Tractable Density Models
Russell Tsuchida Cheng Soon Ong Dino Sejdinovic
研究问题:本文旨在开发和研究一种新的概率分布模型,称为平方神经网络族(SNEFY),并通过对神经网络的2-范数进行平方和归一化来形成。
动机:由于许多机器学习任务中都需要使用到灵活的概率分布模型,因此作者们开发了这种新的、基于神经网络的概率分布模型。
方法:通过将神经网络的2-范数进行平方并归一化,形成了SNEFY模型。在许多感兴趣的案例中,SNEFY模型都可以得到封闭形式的正规化常数,从而产生灵活且完全可追踪的密度模型。
效果:SNEFY模型严格地推广了经典的指数族,并且在条件密度估计和缺失数据密度估计等任务上都有实际应用。
VaRT: Variational Regression Trees
Sebastian Salazar
研究问题:本文旨在介绍一种新颖的非参数贝叶斯模型,该模型使用变分推理来近似随机决策树空间上的后验分布。
动机:决策树是机器学习中用于分类和回归任务的成熟工具。本文提出了一种新的非参数贝叶斯模型,用于处理这些问题。
方法:我们使用变分推理来近似随机决策树空间上的后验分布,并在18个数据集上评估了该模型的性能。我们还探索了其在因果关系推断问题上的应用。
效果:实验结果表明,该模型在回归任务上与其他最先进的方法具有竞争力。我们在PyTorch中实现了该算法的全向量化版本。
Conditional independence testing under misspecified inductive biases
Felipe Maia Polo Yuekai Sun Moulinath Banerjee
研究问题:条件独立测试是现代统计学和机器学习中的基本且具有挑战性的任务。
动机:许多现代的条件独立测试方法依赖于强大的监督学习方法来学习回归函数或贝叶斯预测器作为中间步骤,我们称之为基于回归的测试。当这些方法由于错误的归纳偏差而失败时,其行为尚不清楚。
方法:我们研究了基于回归的条件独立测试在错误归纳偏差下的性能。即,我们为三个基于回归的测试提出了新的近似值或错误上界,这些测试取决于错误归纳偏差。此外,我们还引入了拉奥-布莱克威尔预测器测试(RBPT),这是一种对错误归纳偏差具有鲁棒性的基于回归的条件独立测试。
效果:通过人工和真实数据的实验,展示了我们的理论和方法的有效性。
Learning Functional Transduction
Mathieu Chalvidal Thomas Serre Rufin VanRullen
研究问题:如何有效地进行回归分析?
动机:现有的直接基于范例数据的转导方法和潜在的复杂函数拟合的归纳方法都存在问题。
方法:利用向量值再生核巴拿赫空间理论,提出了一种混合方法:元学习转导回归系统,形成高效的上下文神经近似器。
效果:训练后的转导器可以快速捕捉新的功能关系,并生成原始图像估计,适用于物理系统和气候变化模型等应用,且训练成本较低。
High-dimensional Asymptotics of Denoising Autoencoders
Hugo Cui Lenka Zdeborova
研究问题:使用具有绑定权重和跳过连接的两层非线性自动编码器对高维数据进行去噪。
动机:在训练样本数量和输入维度同时趋向无穷大,而隐藏单元数量有限的情况下,解决高维数据的去噪问题。
方法:构建一个具有绑定权重和跳过连接的两层非线性自动编码器,通过闭型表达式计算去噪均方误差。
效果:实验结果表明,该架构优于与主成分分析密切相关的不带跳过连接的自动编码器,且能准确捕捉真实数据集的学习曲线。
Kernelized Cumulants: Beyond Kernel Mean Embeddings
Patric Bonnier Harald Oberhauser Zoltán Szabó
研究问题:如何将累积量扩展到再生核希尔伯特空间(RKHS)并证明其计算的可追踪性。
动机:累积量可以作为矩的替代方案,具有更低的方差估计器等优点。
方法:使用张量代数的工具将累积量扩展到RKHS,并通过内核技巧证明其计算的可追踪性。
效果:通过理论和实验(包括合成数据、环境数据和交通数据分析),证明了超越一阶的优势,且在实验中实现了相同的计算复杂度和最小的开销。
Let the Flows Tell: Solving Graph Combinatorial Problems with GFlowNets
Dinghuai Zhang Hanjun Dai Nikolay Malkin Aaron Courville Yoshua Bengio Ling Pan
研究问题:组合优化(CO)问题通常属于NP-hard,难以通过精确算法求解,因此适合应用机器学习方法。
动机:CO问题中的结构化约束可能阻碍直接在解空间中进行优化或采样。
方法:设计马尔可夫决策过程(MDPs)以解决不同的组合优化问题,并训练条件GFlowNets从解空间中采样。
效果:通过在各种CO任务上进行大量实验,使用合成和真实数据,证明GFlowNet策略能够有效地找到高质量的解决方案。
Provably Fast Finite Particle Variants of SVGD via Virtual Particle Stochastic Approximation
Aniket Das Dheeraj Mysore Nagaraj
研究问题:本文旨在解决粒子基变分推断算法SVGD在有限粒子情况下的行为理解不足的问题。
动机:尽管SVGD的无限粒子极限动态特性已被充分描述,但其在有限粒子状态下的行为却鲜为人知。为此,我们引入了“虚拟粒子”的概念,以开发新的基于概率测度的群体极限SVGD动态的随机近似方法,这些方法可以用有限的粒子精确实现。
方法:我们设计了两种计算效率高的SVGD变体,即VP-SVGD和GB-SVGD,这两种算法具有被证明的快速有限粒子收敛速度。我们的算法可以看作是特定随机批量近似的SVGD,其计算效率高于普通SVGD。
效果:实验结果表明,运行T步、批量大小为K的VP-SVGD和GB-SVGD产生的n个粒子至少与目标分布的核Stein Discrepancy至多为O(d^{1/3}/(KT)^{1/6})的i.i.d样本一样好。此外,我们的结果还适用于对势函数的温和增长条件,这比先前工作中通常考虑的等周(例如Poincare不等式)或信息传输条件(例如Talagrand的不等式T_1)要弱得多。因此,我们分析了由VP-SVGD和GB-SVGD产生的粒子的经验测度向目标分布的收敛情况,并展示了比已知最好的有限粒子分析的SVGD双指数改善的效果。
Trans-Dimensional Generative Modeling via Jump Diffusion Models
Andrew Campbell William Harvey Christian Dietrich Weilbach Valentin De Bortoli Tom Rainforth Arnaud Doucet
研究问题:本文旨在提出一种新的生成模型,能够自然地处理不同维度的数据。
动机:目前的生成模型在处理不同维度数据时存在困难,需要分别生成状态值和维度。
方法:通过联合建模每个数据点的状态和维度,将生成过程定义为跳跃扩散过程,在不同的维度空间之间跳跃。首先定义一个破坏维度的前向噪声过程,然后推导出创建维度的时间反向生成过程以及一种新的证据下界训练目标,用于学习近似它。
效果:模拟我们学到的时间反向生成过程的近似值,为生成不同维度的数据提供了一种有效的方法,通过联合生成状态值和维度。在分子和视频数据集上进行实验,报告了与测试时间扩散引导插值任务更好的兼容性,以及与分别生成状态值和维度的固定维度模型相比,改进了插值能力。
Explaining the Uncertain: Stochastic Shapley Values for Gaussian Process Models
Siu Lun Chau Krikamol Muandet Dino Sejdinovic
研究问题:本文旨在提出一种新的方法来解释高斯过程(GPs),该方法可以利用GPs中存在的完整的分析协方差结构。
动机:现有的高斯过程解释方法无法充分利用其完整的分析协方差结构,因此需要一种新方法来提高解释的有效性和准确性。
方法:本文提出了一种基于扩展了随机合作博弈的沙普利值的解决方案概念的新方法,该方法生成的解释是随机变量。使用这种方法生成的高斯过程解释满足类似于标准沙普利值的有利公理,并具有可追踪的特征和数据观察之间的协方差函数。这种协方差允许量化解释的不确定性并研究解释之间的统计依赖性。
效果:通过大量的示例说明,本文提出的新方法在预测和解释高斯过程方面表现出了很高的有效性。
Timewarp: Transferable Acceleration of Molecular Dynamics by Learning Time-Coarsened Dynamics
Leon Klein Andrew Y. K. Foong Tor Erlend Fjelde Bruno Kacper Mlodozeniec Marc Brockschmidt Sebastian Nowozin Frank Noe Ryota Tomioka
研究问题:如何有效地模拟分子系统的长时间过程,如结合和折叠等?
动机:传统的分子动力学模拟方法无法有效模拟长时间的分子过程,并且需要对每个研究的分子系统进行新的模拟。
方法:提出一种名为Timewarp的增强采样方法,该方法使用正则化流作为马尔可夫链蒙特卡罗方法中的目标波尔兹曼分布的提议分布。该流在离线状态下对分子动力学轨迹进行训练,学习在时间上进行大步长模拟。
效果:Timewarp方法具有转移性,一旦训练完成,就可以推广到未见过的小肽(2-4个氨基酸),并能够比标准的分子动力学更快地探索其亚稳态。这为开发通用、可转移的加速分子动力学算法迈出了重要一步。
Statistical Guarantees for Variational Autoencoders using PAC-Bayesian Theory
Sokhna Diarra Mbacke Florence Clerc Pascal Germain
研究问题:本文旨在利用PAC-贝叶斯理论为变分自编码器(VAEs)提供统计保证。
动机:尽管变分自编码器在机器学习中广泛应用,但关于其理论性质的许多问题仍未解决。
方法:使用PAC-贝叶斯理论,我们首先推导出数据生成分布中单个样本条件后验分布的第一个PAC-贝叶斯界。然后,利用这一结果为VAE的重构损失提供泛化保证,并为输入和再生分布之间的距离提供上界。更重要的是,我们提供了输入分布和由VAE生成模型定义的分布之间的Wasserstein距离的上界。
效果:实验结果表明,我们的方法能够有效地为VAEs提供理论保证。
The Geometry of Neural Nets' Parameter Spaces Under Reparametrization
Agustinus Kristiadi Felix Dangel Philipp Hennig
研究问题:重新参数化在改善神经网络训练中是一种流行的方法,但它可能会引发一些问题,如Hessian基平坦度量、优化轨迹和概率密度模式的不一致性。
动机:本文从黎曼几何的角度研究了神经网络在重新参数化下的不变性。
方法:如果明确表示出度量并使用正确的相关转换规则,那么任何神经网络都具有不变性。
效果:讨论了不变性对测量最小值的平坦度、优化和概率密度最大化的影响,并探索了一些有用的不变性方向。
Online PCA in Converging Self-consistent Field Equations
Xihan Li Xiang Chen Rasul Tutunov Haitham Bou Ammar Lei Wang Jun Wang
研究问题:解决非线性特征值问题中的自洽场方程(SCF)的非收敛性问题。
动机:传统的固定点迭代方法在解决这类问题上存在非收敛的问题,而SCF方程在计算科学中具有重要的意义。
方法:将SCF方程视为非平稳时间序列的主成分分析(PCA),并在线更新分布和其自身的主成分,使模型逐渐趋向于平衡状态。
效果:通过在线PCA技术,新算法能够提高模型向平衡状态的收敛能力,并在合成和真实的电子结构场景上进行了实验验证,表现出了高收敛能力。
On Slicing Optimality for Mutual Information
Ammar Fayad Majd Ibrahim
研究问题:在复杂的高维环境中,测量两个随机变量之间的依赖性具有重大意义,但计算困难。
动机:当前的切片方法虽然可以用于测量高维变量之间的互信息(MI),但由于其使用均匀的切片方向分布,通常会丢弃变量之间的有信息特征,导致依赖性的量化不准确。
方法:本文提出了一种寻找互信息最优切片分布的原则性框架,包括理论分析和实践算法的开发,并将其与现代机器学习框架相连接。
效果:通过在基准领域的全面实验,证明了我们的信息测量方法比最先进的基线方法有显著的改进。
Conditional Matrix Flows for Gaussian Graphical Models
Marcello Massimo Negri Fabricio Arend Torres Volker Roth
研究问题:如何利用少量观察值来研究多个变量之间的条件独立性。
动机:高斯图模型(GGMs)通过$l_q$正则化鼓励精度矩阵的稀疏性,但大多数GMMs依赖于$l_1$范数,因为目标对于小于$l_1$的伪范数来说是非常非凸的。
方法:我们提出了一个通用框架,用于在GGMs中进行矩阵变量正态流变分推断,该框架统一了频率派和贝叶斯框架的优点。作为对以前工作的关键点改进,我们用一个流为所有正则化参数$\lambda$和所有$l_q$范数训练了一个连续的稀疏回归模型。
效果:在一个模型中,我们可以访问(i)任意$\lambda$和任意$l_q$(伪)范数的后验演变,(ii)用于模型选择的边缘对数似然,以及(iii)模拟退火在MAP极限中的频繁解决方案路径。
Multiply Robust Federated Estimation of Targeted Average Treatment Effects
Larry Han Zhu Shen Jose R Zubizarreta
研究问题:如何在保护个体数据隐私的同时,利用多站点数据对目标人群进行有效的因果推断。
动机:联邦或多站点研究相比单站点研究具有更强的一般性,能够研究未被充分代表的人群,以及研究罕见的暴露和结果。然而,这些研究需要解决保护每个个体数据的隐私、协变量分布的异质性和站点之间的不同数据结构等问题。
方法:我们提出了一种新的联邦方法,通过开发一种多重稳健且保护隐私的干扰函数估计方法来调整协变量偏移并适应站点间的协变量不匹配,以从多站点数据中得出对目标人群的有效因果推断。
效果:我们的方法在效率和鲁棒性方面优于现有的最先进技术,展示了有限样本的优势。我们将该方法应用于研究经皮冠状动脉介入(PCI)对急性心肌梗死(AMI)患者住院时间的治疗效应,数据来源于美国医疗保险和医疗补助服务中心(CMS)。
Improving *day-ahead* Solar Irradiance Time Series Forecasting by Leveraging Spatio-Temporal Context
Oussama Boussif Ghait Boukachab Dan Assouline Stefano Massaroli Tianle Yuan Loubna Benabbou Yoshua Bengio
研究问题:如何通过利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Hierarchical VAEs provide a normative account of motion processing in the primate brain
Hadi Vafaii Jacob L. Yates Daniel Butts
研究问题:本文旨在评估分层推理在运动知觉中的作用及其与大脑功能的一致性。
动机:作者借鉴了19世纪提出的感知和推理之间的关系,并将其与现代机器学习中的生成模型如变分自编码器(VAEs)及其分层变体进行类比。
方法:作者首先引入了一个名为“视网膜光学流学习”(ROFL)的新型合成数据框架,该框架可以控制运动统计量及其原因。然后,他们提出了一种新的分层VAE,并在两个下游任务上对其进行了测试:(i)预测视网膜光学流的真因(例如自我运动);(ii)预测灵长类动物运动处理通路中的神经元反应。作者操纵了模型架构(分层与非分层)、损失函数以及运动刺激的因果结构。
效果:研究发现,模型中的分层潜在结构带来了几项改进。首先,它提高了真因变量的线性可解码性,并且是以稀疏和解耦的方式进行的。其次,我们的分层VAE在预测神经元反应方面优于先前最先进的模型,并表现出稀疏的潜在-神经元关系。这些结果取决于世界的因果结构,表明大脑和人工神经网络之间的对齐不仅依赖于架构,还依赖于匹配生态相关的刺激统计量。总的来说,我们的研究结果表明,分层贝叶斯推理是大脑理解世界的基础,而分层VAEs可以有效地模拟这种理解。
Optimal testing using combined test statistics across independent studies
Lasse Vuursteen Botond Szabo Aad van der Vaart Harry van Zanten
研究问题:本文旨在研究元分析中测试统计量的组合方法的理论理解,特别是在高维模型和复合假设检验中。
动机:尽管组合独立试验或实验的测试统计量是元分析的常用方法,但其理论理解有限,尤其是在考虑复合假设检验的高维模型中。
方法:在许多正态均值模型的背景下,我们引入了一个自然且温和的限制,对局部试验的元级组合函数进行数学量化。然后,我们为标准的结合方法(如p值和e值)推导出最小最大下界和匹配上界,以量化相对于使用完整、汇总数据的损耗。
效果:我们发现一种“肘部效应”,即在某些情况下,将每个试验中的局部最优测试结合起来会导致次优的元分析方法。我们还探索了允许试验设计之间有限协调的可能性。我们的研究结果将元分析与带宽约束分布式推理联系起来,并建立在后者领域的最新信息理论上的发展。
Fair Adaptive Experiments
Waverly Wei Xinwei Ma Jingshen Wang
研究问题:如何通过随机化实验评估治疗、政策或干预的有效性,同时解决公平性和效率性的问题。
动机:传统的完全随机化方法可能导致数据使用效率低下,而适应性实验通过在实验过程中学习并更新处理分配概率,可以提高数据使用效率和估计效率,但可能引发公平性和平等性问题。
方法:提出一种公平的适应性实验策略,该策略可以同时提高数据使用效率,实现“无嫉妒”的处理分配保证,并提高参与者的整体福利。这种策略不需要对结果变量进行参数建模假设,使其更具通用性和适用性。
效果:理论研究表明,所提出的适应性处理分配算法尽管没有闭型表达式,但会逐渐接近最优分配规则。模拟证据和两个合成数据研究进一步证明了公平适应性实验策略的性能。
Versatile Energy-Based Probabilistic Models for High Energy Physics
Taoli Cheng Aaron Courville
研究问题:本文旨在构建一种多功能的能量基础概率模型,用于模拟大型强子对撞机中的高能物理事件。
动机:能量基础模型作为一种经典的生成建模方法,具有能量函数形式的灵活性,近年来在计算机视觉和自然语言处理的高维数据建模中取得了巨大成功。
方法:基于强大的生成模型,描述了粒子间的高阶交互作用,适应不同的编码架构,并建立在隐式生成的基础上。
效果:该框架可以作为强大的参数化事件生成器用于物理模拟,一个无虚假相关性的通用异常信号检测器,以及增强的事件分类器进行粒子识别。
NAS-X: Neural Adaptive Smoothing via Twisting
Dieterich Lawson Michael Y. Li Scott Linderman
研究问题:本文旨在解决统计和机器学习中序列潜在变量模型的灵活性增加,导致分析推理和模型学习变得具有挑战性的问题。
动机:为了解决这个问题,作者提出了一种新的方法——神经自适应平滑通过扭曲(NAS-X),该方法通过使用平滑序列蒙特卡洛(SMC)来估计难以处理的后验期望,将重新加权唤醒睡眠(RWS)扩展到序列设置中。
方法:NAS-X结合了RWS和平滑SMC,能够提供低偏和低方差的梯度估计,并适应离散和连续的潜在变量模型。
效果:实验表明,NAS-X在推理和模型学习方面显著优于先前基于VI和RWS的方法,实现了更低的参数误差和更紧的似然界限。
Modelling Cellular Perturbations with the Sparse Additive Mechanism Shift Variational Autoencoder
Michael Bereket Theofanis Karaletsos
研究问题:如何有效地对观察结果进行干预建模,特别是在药物发现中对细胞的多样性干预效应进行模型化。
动机:在药物发现等领域,需要对各种干预措施对细胞的影响进行建模,以揭示未知的生物作用机制。
方法:提出了稀疏附加机制转移变分自编码器(SAMS-VAE),将组合性、解耦性和可解释性相结合,用于干预模型。SAMS-VAE将受干扰样本的潜在状态建模为局部潜在变量(捕捉样本特定变化)和稀疏全局潜在变量(潜在干预效应)的总和。
效果:通过两个流行的单细胞测序数据集,对SAMS-VAE进行了定量和定性评估。实验结果表明,SAMS-VAE在分布内和分布外任务的泛化性能上优于同类模型,并能产生与已知生物机制强烈相关的可解释潜在结构。
Lie Point Symmetry and Physics-Informed Networks
Tara Akhound-Sadegh Laurence Perreault-Levasseur Johannes Brandstetter Max Welling Siamak Ravanbakhsh
研究问题:本文旨在探索将PDE对称性(Lie点对称性)整合到神经网络求解器中,特别是在物理学信息神经网络(PINNs)中的应用。
动机:尽管对称性在改善神经网络的泛化能力方面具有潜力,但它们在神经网络求解偏微分方程(PDEs)中的应用仍然未被充分探索。
方法:我们提出了一种新的损失函数,该函数可以像PINN模型试图通过损失函数强制实施底层PDE一样,向网络提供关于Lie点对称性的信息。
效果:实证评估表明,由PDE的Lie点对称性引入的归纳偏差极大地提高了PINN的样本效率。
PAC-Bayes Generalization Certificates for Learned Inductive Conformal Prediction
Apoorva Sharma Sushant Veer Asher Hancock Heng Yang Marco Pavone Anirudha Majumdar
研究问题:如何提高深度学习模型的不确定性估计效率?
动机:目前的深度学习模型虽然能提供覆盖保证,但其预测集的大小和内容并不直接可控,且依赖于底层模型和评分函数的选择。
方法:通过使用数据直接优化ICP预测集的效率来学习模型和评分函数参数。
效果:利用PAC-Bayes理论为直接优化以最大化效率同时满足所需测试覆盖率的集值预测器获得覆盖和效率的泛化界限。在回归和分类任务上评估该方法,并在低数据量的情况下超越基于Hoeffding边界的PAC保证的ICP校准基线。
Derandomized novelty detection with FDR control via conformal e-values
Meshi Bashari Amir Epstein Yaniv Romano Matteo Sesia
研究问题:如何通过使用合适的一致性e值,而不是p值来量化统计显著性,使一致性推理更稳定,从而减少对同一数据进行多次分析时可能出现的随机性。
动机:当前的一致性推理方法虽然强大,但其随机性限制了其结果的稳定性和可解释性。
方法:提出一种新颖的方法,通过利用从相同数据中仔细提取的额外边信息,以创新的方式对一致性e值进行加权,从而有效地聚合来自对同一数据的多次分析的证据,同时保证假发现率的控制。
效果:模拟实验和真实数据表明,这种方法可以有效地消除最先进的替代技术所得到的推理中的随机噪声,有时还能提高检验力。
Discriminative Calibration: Check Bayesian Computation from Simulations and Flexible Classifier
Yuling Yao Justin Domke
研究问题:如何准确检验贝叶斯计算的准确性?
动机:当前常用的基于排名的模拟校准(SBC)存在一些缺点,如测试统计量不够灵活、交互作用难以考察、多重检验困难以及结果p值不是发散度量。
方法:提出用灵活的分类方法代替边际排名测试,从数据中学习测试统计量。这种方法通常具有比SBC测试更高的统计能力,并返回可解释的失配度量,由分类准确性计算得出。该方法可以用于不同的数据生成过程,以解决基于模拟的推理或传统的推理方法,如马尔科夫链蒙特卡罗或变分推理。
效果:通过数值和真实数据实验验证了该方法的有效性。
Prediction and Control in Continual Reinforcement Learning
Nishanth Anand Doina Precup
研究问题:本文旨在解决连续强化学习中的价值函数估计问题。
动机:现有的强化学习算法在面对持续变化的环境时,往往难以快速适应新的情况。
方法:提出将价值函数分解为持久值函数和瞬时值函数两部分,分别在不同的时间尺度上进行更新。
效果:实验结果表明,该方法在预测和控制问题上都能显著提高性能。
Intensity Profile Projection: A Framework for Continuous-Time Representation Learning for Dynamic Networks
Alexander Modell Ian Gallagher Emma Ceccherini Nick Whiteley Patrick Rubin-Delanchy
研究问题:本文提出了一种新的表示学习框架,即强度轮廓投影,用于连续时间动态网络数据。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:通过估计成对的强度函数(例如通过核平滑),学习一个最小化强度重建误差的投影,并通过学习的投影构造演化的节点表示。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
High Precision Causal Model Evaluation with Conditional Randomization
Chao Ma Cheng Zhang
研究问题:如何评估因果模型,特别是在现实世界的条件随机化设置中。
动机:虽然随机对照试验是金标准,但并不总是可行或道德的。条件随机化实验基于逆概率加权(IPW)提供了更现实的方法,但可能会受到高估计方差的影响。
方法:提出了一种新的低方差因果误差估计器,称为对估计器。通过将相同的IPW估计器应用于模型和真实的实验效应,我们的估计器有效地消除了由于IPW引起的方差,并实现了较小的渐近方差。
效果:实证研究表明,我们的估计器有所改进,显示出其在实现接近随机对照试验性能方面的巨大潜力。我们的方法为在条件随机化设置中评估因果推理模型提供了一种简单而强大的解决方案,无需对IPW估计器本身进行复杂的修改,为更强大和可靠的模型评估铺平了道路。
SEEDS: Exponential SDE Solvers for Fast High-Quality Sampling from Diffusion Models
Martin Gonzalez Nelson Fernandez Thuy Vinh Dinh Tran Elies Gherbi Hatem Hajri Nader Masmoudi
研究问题:如何提高预训练扩散概率模型(DPMs)的采样速度和质量。
动机:现有的解决微分方程(DE)的方法虽然速度快,但质量一般,而慢速的稳定性求解器(SDE solvers)虽然质量好,但速度慢。
方法:提出随机显式指数无导数求解器(SEEDS),通过分析扩散SDE的精确解的公式,对线性部分进行解析计算,并使用新的随机成分处理方法,实现其方差的解析计算,从而在保持高质量采样的同时,将采样速度提高3-5倍。
效果:在多个图像生成基准测试中验证了该方法,结果显示SEEDS在采样速度和质量上优于或与之前的SDE求解器相当,且SEEDS无需依赖导数和训练,并有强大的收敛保证。
Gacs-Korner Common Information Variational Autoencoder
Michael Kleinman Alessandro Achille Stefano Soatto Jonathan Kao
研究问题:本文旨在提出一种公共信息的概念,以量化和区分两个随机变量之间共享的信息和各自独有的信息。
动机:现有的公共信息概念无法很好地处理高维数据,如图像和视频,因此需要一种新的方法来更好地理解和利用公共信息。
方法:通过优化一族函数定义公共信息的概念,并使用传统变分自动编码器的一种简单修改来划分和量化公共和独有的信息。
效果:实证研究表明,该方法能够学习到语义上有意义的公共和独有的变化因素,即使在高维数据上也能准确量化随机变量之间的公共信息。
Estimating Causal Effects Identifiable from a Combination of Observations and Experiments
Yonghan Jung Ivan Diaz Jin Tian Elias Bareinboim
研究问题:确定一组观察和干预分布是否可以组合以学习目标因果关系,即广义识别(g-identification)问题。
动机:尽管g-identification在理论上已被充分理解和解决,但在实际应用中,特别是在从有限样本中估计目标分布时,这些结果的应用具有挑战性。
方法:本文开发了一种新的、通用的估计器,对g-可识别的因果函数表现出多重稳健性。具体来说,我们证明了任何g-可识别的因果效应都可以表示为易于估计的广义多结果顺序后门调整的函数。然后,我们构建了一个相应的估计器,该估计器对偏差具有鲁棒性。我们分析了估计器的渐近收敛性质。最后,我们在实验研究中说明了所提出的估计器的使用。模拟结果证实了理论。
效果:实证研究表明,该方法能够学习到语义上有意义的公共和独有的变化因素,即使在高维数据上也能准确量化随机变量之间的公共信息。
Differentiable sorting for censored time-to-event data.
Andre Vauvelle Benjamin Wild Roland Eils Spiros Denaxas
研究问题:本文旨在解决生存分析这一机器学习中的重要半监督任务,特别是在医疗保健领域的应用。
动机:目前的生存分析方法(如Cox的部分似然法)存在一些问题,如对数据中的依赖关系假设过于严格,无法处理删失数据等。
方法:本文提出了一种新的方法Diffsurv,该方法通过扩展可微分排序方法以处理删失任务。Diffsurv预测可能的排列矩阵,以适应由删失样本引入的标签不确定性。
效果:实验结果表明,Diffsurv在各种模拟和现实世界的风险预测场景中优于现有的基准方法。此外,作者还展示了Diffsurv在top-k风险预测方面的算法优势,超越了当前的方法。
Causal Discovery in Semi-Stationary Time Series
Shanyun Gao Raghavendra Addanki Tong Yu Ryan A. Rossi Murat Kocaoglu
研究问题:如何在不做出平稳假设的情况下从观察性时间序列中发现因果关系。
动机:在许多领域,如零售销售、交通系统和医学科学中,这是一个常见的挑战。
方法:提出了一种基于约束的非参数算法来发现这种半稳定时间序列中的因果关系。
效果:通过大量的实验验证了该算法在连续和离散模拟数据上识别因果关系的能力,并将其应用于实际的气候数据集。
Resilient Multiple Choice Learning: A learned scoring scheme with application to audio scene analysis
Victor Letzelter Mathieu Fontaine Mickael Chen Patrick Perez Slim Essid Gaël Richard
研究问题:本文旨在扩展多选题学习(MCL)方法,以解决回归设置中多个目标可能针对每个训练输入进行采样的条件分布估计问题。
动机:现有的MCL变体在回归设置中关注于合并假设,从而最终牺牲了预测的多样性。相比之下,我们的方法依赖于基于输出空间的Voronoi划分的数学框架所支撑的新的学习评分方案,从而得出概率解释。
方法:我们引入了弹性多选题学习(rMCL),这是一种扩展的MCL方法,用于回归设置中多个目标可能针对每个训练输入进行采样的条件分布估计。
效果:通过在合成数据上进行实验验证rMCL后,我们在声音源定位问题上进一步评估了其优点,展示了其实用性和解释的相关性。
Fast Scalable and Accurate Discovery of DAGs Using the Best Order Score Search and Grow Shrink Trees
Bryan Andrews Joseph Ramsey Ruben Sanchez Romero Jazmin Camchong Erich Kummerfeld
研究问题:如何有效地学习图形条件独立结构,以解决大规模高连接变量的问题。
动机:现有的学习算法在准确性和执行时间上难以扩展到涉及数百个高度连接变量的问题,例如从fMRI数据中恢复大脑网络。
方法:引入了BOSS和GSTs来学习有向无环图(DAGs)。BOSS贪婪地搜索变量的排列,使用GSTs根据排列构建和评分DAGs。GSTs高效地缓存分数以消除冗余计算。
效果:BOSS在准确性和执行时间方面实现了最先进的性能,并在各种条件下与各种组合和基于梯度的学习算法进行了比较。通过将BOSS应用于两组静息状态fMRI数据,证明了其实用性。BOSS可在TETRAD项目中使用,包括Python和R包装器。
PROTES: Probabilistic Optimization with Tensor Sampling
Anastasia Batsheva Andrei Chertkov Gleb Ryzhakov Ivan Oseledets
研究问题:开发一种新的黑箱优化方法PROTES,用于处理复杂的多维数组和离散多元函数。
动机:现有的离散优化方法在处理大规模复杂问题时表现不佳,需要一种更有效的方法。
方法:基于低参数张量训练格式的概率密度函数进行概率采样,开发出新的优化方法PROTES。
效果:通过数值实验,无论在解析模型函数还是复杂问题上,PROTES都优于流行的离散优化方法(粒子群优化、协方差矩阵适应、微分进化等)。
Variational Gaussian processes for linear inverse problems
Thibault Christophe RANDRIANARISOA Botond Szabo
研究问题:本文旨在探讨利用贝叶斯方法解决逆问题,特别是在复杂模型中的标准采样基础的贝叶斯方法的计算成本过高的问题。
动机:在逆问题中,感兴趣的参数或信号只能间接观察到,并且观测通常受到噪声的进一步干扰。贝叶斯提供了一种通过先验分布自然地规范这些问题的方法,并提供了概率解决方案,量化了问题中的剩余不确定性。然而,标准采样基础的贝叶斯方法在复杂模型中的计算成本可能过高。因此,在实践中,变分贝叶斯越来越受欢迎。
方法:在我们的分析中,我们研究了用于高斯过程先验的变分贝叶斯方法来解决线性逆问题。我们考虑了轻度和严重的不适定逆问题,并与Titsias [Titsias, 2009]提出的流行的诱导变量变分贝叶斯方法进行了合作。我们在一般设置中推导了变分后验的后验收缩率,并表明可以通过正确调整的过程实现最小最大估计率。作为具体示例,我们考虑了一系列逆问题,包括热方程、Volterra算子和拉东变换,以及基于总体和经验光谱特征的诱导变量方法。
效果:实验结果表明,在各种知识驱动任务上,ERNIE取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。同时,我们的研究也证明了变分贝叶斯方法在解决逆问题上的有效性和优越性。
Robustifying Generalizable Implicit Shape Networks with a Tunable Non-Parametric Model
Amine Ouasfi Adnane Boukhayma
研究问题:本文旨在解决预训练语言模型在知识驱动任务上的性能不足,以及现有前向可泛化模型在未定向点云隐式形状重建中存在的泛化问题。
动机:目前的预训练语言模型和前向可泛化模型在处理知识驱动任务和未定向点云隐式形状重建时存在性能和泛化性的问题。
方法:本文提出了一种利用大规模文本语料库和知识图谱训练增强的语言表示模型ERNIE的方法,并结合了网络的 inter-shape 数据先验和 intra-shape 正则化先验的 Nyström Kernel Ridge Regression 方法进行形状自适应表达性-鲁棒性权衡。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。同时,所提出的形状自适应表达性-鲁棒性权衡方法在合成数据和真实数据上都取得了优于基线方法和目前最先进的结果。
Topology-Aware Uncertainty for Image Segmentation
Saumya Gupta Yikai Zhang Xiaoling Hu Prateek Prasanna Chao Chen
研究问题:如何准确估计曲线结构(如血管和道路网络)的不确定性,以便于人类注释员进行验证。
动机:由于信号相对较弱且几何/拓扑复杂,对曲线结构的分割具有挑战性。为了促进和加速大规模注释,需要采用半自动方法,如专家校对。
方法:我们利用拓扑数据分析工具,特别是离散Morse理论(DMT),首先捕获结构,然后推理其不确定性。我们还提出了一种联合预测模型来估计结构之间的不确定性(互结构不确定性),并通过扰动和行走方案采样其表示来提出一种新的概率DMT模型来模拟每个结构内在的不确定性(内结构不确定性)。
效果:在各种2D和3D数据集上,我们的方法比现有工作产生了更好的结构级不确定性图。
Smooth, exact rotational symmetrization for deep learning on point clouds
Sergey Pozdnyakov Michele Ceriotti
研究问题:如何将旋转对称性添加到现有的点云模型中,同时保持其他所有要求。
动机:在化学和材料建模领域,严格遵守物理约束是至关重要的,而现有的模型往往忽视了这一点。
方法:提出了一种通用的对称化方法,可以在不影响其他要求的情况下,给任何给定的模型添加旋转等变性质。
效果:通过这种方法,我们引入了一种新的点边转换器(PET)架构,它在应用我们的通用协议后,不仅保持了原有的精度,而且实现了旋转等变,从而在分子和固体的几个基准数据集上取得了最先进的性能。
Double and Single Descent in Causal Inference with an Application to High-Dimensional Synthetic Control
Jann Spiess Guido Imbens Amar Venugopal
研究问题:本文探讨了在因果关系推断中高度过参数化的模型,包括具有许多控制单位的合成控制。
动机:受最近机器学习中双重下降现象的文献启发,我们考虑了高维线性回归在估算平均工资数据和平均处理效应中的应用,发现比样本量拥有更多协变量的模型可以优于简单的模型。
方法:我们首先调查了高维线性回归在估算工资数据和平均处理效应上的表现,然后记录了具有许多控制单位的高维合成控制估计器的性能。我们发现添加控制单位甚至可以帮助改善预治疗拟合情况。
效果:我们为这些高维模型的性能提供了一个统一的理论视角。具体来说,我们展示了更复杂的模型可以被解释为简单模型的平均估计器,这有助于提高平均性能。这种观点为我们提供了关于当控制单位相对于预治疗期间的数量较多时如何使用合成控制的切实见解。
Latent SDEs on Homogeneous Spaces
Sebastian Zeng Florian Graf Roland Kwitt
研究问题:本文探讨了在潜在变量模型中进行变分贝叶斯推理的问题,其中观察到的随机过程由未被观察到的潜在随机微分方程(SDE)的解所控制。
动机:当试图从大规模数据中学习$\mathbb{R}^n$中的潜在SDE时,会出现诸如高效梯度计算等挑战。因此,我们退一步研究一个特定的子类。在我们的案例中,SDE在均匀的潜在空间内演化,并由相应的(矩阵)李群的随机动力学引发。
方法:对于变分推断,球体不仅便于对SDE的初始状态使用均匀先验,而且在证据下界中,我们还获得了近似后验和先验过程之间的KL散度的特别简单和直观的表达式。
效果:实证研究表明,通过现有的一步几何欧拉-马尔可夫方案,可以有效地学习到提出类型的潜在SDE。尽管我们只限制自己研究一类较不多样化的SDE,但我们在一系列时间序列插值和分类基准测试上实现了竞争甚至最先进的性能。
Neural Sampling in Hierarchical Exponential-family Energy-based Models
Xingsi Dong Si Wu
研究问题:本文旨在提出一种模拟大脑运作的分层指数族能量模型(HEE模型),以理解大脑如何通过生成模型来理解外部世界。
动机:贝叶斯脑理论认为大脑使用生成模型来理解外部世界,而采样视角则认为大脑通过随机神经反应的样本推断后验分布。此外,大脑会不断更新其生成模型以接近外部世界的真实分布。
方法:在HEE模型中,我们将配分函数分解为各个层次,并利用具有较短时间常数的神经元群来采样分解后的归一化项的梯度。这使得我们的模型能够同时估计配分函数和执行推理,避免了传统能量基础模型(EBMs)中的负相位问题。因此,学习过程在时间和空间上都得到了局部化,模型易于收敛。为了匹配大脑的快速计算,我们证明神经适应可以作为动量项,显著加速推理过程。
效果:在自然图像数据集上,我们的模型表现出与生物视觉系统观察到的类似的表示。此外,对于机器学习社区来说,我们的模型可以通过联合或边际生成来生成观察结果。我们表明,边际生成优于联合生成,并达到与其他EBMs相当的性能。
Switching Autoregressive Low-rank Tensor Models
Hyun Dong Lee Andrew Warrington Joshua I Glaser Scott Linderman
研究问题:时间序列分析中的一个重要问题是对具有时变动态的系统进行建模。
动机:常见的模型如自回归隐马尔可夫模型(ARHMMs)和切换线性动力系统(SLDSs)各有优缺点,需要一种既能保留两者优点又能改善其缺点的新模型。
方法:本文提出了切换自回归低秩张量SALT模型,通过低秩分解参数化ARHMM的张量,控制参数数量,允许捕捉长期依赖关系而不过度拟合。
效果:实验证明,SALT模型在一系列模拟和真实预测任务上具有数量优势,包括行为和神经数据集。此外,学习到的低秩张量提供了关于每个离散状态内部的时间依赖性的新见解。
Human spatiotemporal pattern learning as probabilistic program synthesis
Tracey Mills Joshua B. Tenenbaum Samuel J Cheyette
研究问题:如何通过增强的语言表示模型(ERNIE)和知识图谱,充分利用词汇、句法和知识信息进行语言理解。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,而知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱联合训练ERNIE模型,以更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Quantification of Uncertainty with Adversarial Models
Kajetan Schweighofer Lukas Aichberger Mykyta Ielanskyi Günter Klambauer Sepp Hochreiter
研究问题:如何准确估计预测不确定性,特别是在真实世界应用中的行动预测?
动机:当前的预测不确定性量化方法,如深度集成或MC Dropout,主要考虑后验分布,因此在估计认识不确定性方面表现不佳。
方法:提出一种利用对抗模型进行不确定性量化(QUAM)的方法,该方法不仅考虑后验分布,还识别了积分下乘积大的整个区域。
效果:实验表明,QUAM在深度学习模型的认识不确定性捕获上表现出色,并在视觉领域的挑战性任务上超越了先前的方法。
Neural Latent Geometry Search: Product Manifold Inference via Gromov-Hausdorff-Informed Bayesian Optimization
Haitz Sáez de Ocáriz Borde Alvaro Arroyo Ismael Morales López Ingmar Posner Xiaowen Dong
研究问题:如何自动确定最优的潜在几何结构以提升机器学习模型的性能。
动机:目前的机器学习模型主要依赖于欧几里得空间,但研究发现使用具有恒定曲率的双曲和球面空间,或者它们的组合,可以更好地对潜在空间进行建模并提高模型性能。然而,对于如何自动确定最优的潜在几何结构的问题,目前的研究还很少。
方法:我们提出了一种新的方法,称为神经潜在几何搜索(NLGS)。具体来说,我们在一些简化假设下,首次尝试通过少量的查询评估来搜索由常曲率模型空间组成的潜在几何结构。为了实现这一目标,我们提出了一种基于度量几何中Gromov-Hausdorff距离的新的潜在几何之间距离的概念。我们还设计了一个基于潜在几何之间平滑性的图搜索空间,并将计算出的距离作为额外的归纳偏置。最后,我们使用贝叶斯优化在查询有效的方式下搜索最优的潜在几何结构。
效果:我们在合成和真实世界的数据集上进行了实验,确定了多种机器学习问题的最优潜在几何结构。实验结果表明,我们的方法可以有效地找到最优的潜在几何结构,从而提高了机器学习模型的性能。
SHAP-IQ: Unified Approximation of any-order Shapley Interactions
Fabian Fumagalli Maximilian Muschalik Patrick Kolpaczki Eyke Hüllermeier Barbara Eva Hammer
研究问题:如何有效地计算任意基数交互指数(CII)的沙普利交互值?
动机:现有的沙普利交互值计算方法需要特定的近似技术,且没有理论保证其近似质量。
方法:提出SHAPley Interaction Quantification (SHAP-IQ),一种基于新表示的高效采样近似器来计算任意CII的沙普利交互值。
效果:在语言、图像分类和高维合成模型上的应用表明,SHAP-IQ具有高效的计算能力和良好的解释效果。
Statistically Valid Variable Importance Assessment through Conditional Permutations
Ahmad Chamma Denis Engemann Bertrand Thirion
研究问题:如何准确评估变量在复杂学习器,如深度神经网络中的重要性。
动机:当前常用的移除式重要性评估方法存在误判相关性协变量的问题,需要一种更准确的方法。
方法:开发了一种模型无关、计算简洁的系统化条件性排列重要性(CPI)方法,并创建了可重复使用的最先进的变量重要性估计器基准测试。
效果:理论和实证表明,CPI通过提供准确的类型I错误控制克服了标准排列重要性的限制。在大型医疗数据集的实际数据分析实验中,CPI提供了更简洁的显著变量选择。
Topological Obstructions and How to Avoid Them
Babak Esmaeili Robin Walters Heiko Zimmermann Jan-Willem van de Meent
研究问题:将几何归纳偏差引入模型可以提高解释性和泛化能力,但编码到特定的几何结构可能由于施加的拓扑约束而具有挑战性。
动机:训练带有几何潜在空间的编码器可能会遇到障碍,包括奇异点(如自交)或不正确的度或绕数导致的局部最优解。
方法:通过定义多模态变分分布,正则化流有可能规避这些障碍。受此观察启发,我们提出了一种新的基于流的模型,该模型将数据点映射到几何空间上的多模态分布。
效果:我们在两个领域进行实证评估,观察到训练过程中的稳定性提高,有更高的概率收敛到一个同胚编码器。
Perceptual adjustment queries and an inverted measurement paradigm for low-rank metric learning
Austin Xu Andrew McRae Jingyan Wang Mark A. Davenport Ashwin Pananjady
研究问题:本文旨在提出一种新型的人类反馈查询机制,称为知觉调整查询(PAQ),并展示其在度量学习问题中的应用。
动机:为了解决标准矩阵估计器无法应用于高维低秩矩阵估计问题,我们提出了一种结合基数和序数查询优势的新型查询机制。
方法:我们采用倒置测量方案设计了PAQ,并通过收集PAQ测量来学习未知的马氏距离。我们还开发了一种两阶段估计器来进行基于PAQ的度量学习,并为其提供了样本复杂度保证。
效果:数值模拟结果显示,我们的估计器具有良好的性能和显著的特性。
Generative Modelling of Stochastic Actions with Arbitrary Constraints in Reinforcement Learning
Changyu Chen Ramesha Karunasena Thanh Hong Nguyen Arunesh Sinha Pradeep Varakantham
研究问题:在强化学习中,如何优化大规模离散且无序的动作空间,特别是在随机资源分配等问题上。
动机:现有的强化学习方法在处理大规模的离散、无序动作空间时表现不佳,同时,这些问题需要实现的动作具有有效性,这在数学形式上难以简洁表达。
方法:本研究采用条件正态流网络来紧凑地表示随机策略,并通过演员-评论家方法使用采样的动作和相应的动作概率。同时,通过有效的动作拒绝方法(通过有效动作的预言机)更新基本策略。
效果:实验表明,该方法比现有方法更具可扩展性,并能在任何状态下强制实施任意的状态条件约束在动作分布的支持上。
D-CIPHER: Discovery of Closed-form Partial Differential Equations
Krzysztof Kacprzyk Zhaozhi Qian Mihaela van der Schaar
研究问题:如何直接从数据中找出闭型微分方程,包括偏微分方程和高阶常微分方程。
动机:现有的方法需要对方程的形式做出强假设,无法发现许多已知的现象,并且对于噪声和不频繁的观察结果,它们通过估计导数来解决方程-数据不匹配的问题,这使它们在处理这些问题时显得力不从心。
方法:我们提出了D-CIPHER,它能够抵抗测量误差的影响,并可以揭示一类新的、非常通用的微分方程。我们还设计了一种新的优化过程CoLLie,以帮助D-CIPHER有效地搜索这类方程。
效果:实验证明,D-CIPHER能够发现许多超出当前方法能力范围的已知方程。
Labeling Neural Representations with Inverse Recognition
Kirill Bykov Laura Kopf Shinichi Nakajima Marius Kloft Marina MC Höhne
研究问题:现有的深度学习模型虽然在复杂数据表示学习上表现出强大的能力,但这些表示的性质仍然基本未知。
动机:现有的全局可解释性方法如网络剖析存在依赖分割掩码、缺乏统计显著性检验和计算需求高等问题。
方法:我们提出了反向识别(INVERT)方法,这是一种基于区分概念能力的可扩展方法,用于将学习到的表示与人类可理解的概念相链接。
效果:我们在各种场景中展示了INVERT的应用,包括识别受虚假相关性影响的代表,以及解释模型内决策制定的层次结构。
Towards Combinatorial Generalization for Catalysts: A Kohn-Sham Charge-Density Approach
Phil Pope David Jacobs
研究问题:如何提高机器学习在催化剂模型预测中的性能,特别是在未见过的结构上。
动机:现有的机器学习方法主要关注能量预测,但在新的结构上并未显示出显著的泛化能力。
方法:通过点对点学习Kohn-Sham电荷密度,使用一种新的具有电荷密度的块状催化剂数据集进行训练。
效果:实验结果表明,该方法能够推广到训练时未见过的元素的新结构,实现了组合泛化。超过80%的二元和三元测试案例比标准基线更快地收敛,平均减少了13%的达到收敛所需的迭代次数,这可能具有独立的意义。
Physics-Informed Bayesian Optimization of Variational Quantum Circuits
Kim Andrea Nicoli Christopher J. Anders Lena Funcke Tobias Hartung Karl Jansen Stefan Kuhn Klaus Robert Muller Paolo Stornati Pan Kessel Shinichi Nakajima
研究问题:如何利用贝叶斯优化来改进变分量子特征求解器(VQEs)的性能。
动机:VQEs是一种混合的量子-经典协议,用于近似量子哈密顿量的基态,但需要大量的计算资源。
方法:提出了一种新的方法,通过结合关于量子电路的重要先验信息,推导出一种VQE-kernel,并设计了一种新的贝叶斯优化采集函数EMICoRe,可以有效地利用VQE-kernel的归纳偏置。
效果:实验结果表明,该方法优于最先进的基线方法,能够显著提高VQEs的性能。
Causal Effect Identification in Uncertain Causal Networks
Sina Akbari Fateme Jamshidi Ehsan Mokhtarian Matthew James Vowels Jalal Etesami Negar Kiyavash
研究问题:在存在不确定性的因果结构中,如何确定具有最高可信度且可识别特定因果关系的子图?
动机:当因果图中的边缘存在不确定性时,例如代表领域专家的信念程度或反映特定统计测试的置信度,如何进行有效的因果推断?
方法:提出一种称为“边缘ID问题”的NP-hard组合优化问题解决方法,并设计了高效的近似算法。
效果:通过在真实世界网络和随机生成的图形上进行评估,验证了所提算法的有效性。
Efficient Training of Energy-Based Models Using Jarzynski Equality
Davide Carbone Mengjian Hua Simon Coste Eric Vanden-Eijnden
研究问题:如何有效地计算基于统计物理学的能量模型(EBMs)在无监督学习中的性能,特别是其与数据分布之间的交叉熵(CE)。
动机:使用交叉熵作为训练目标具有挑战性,因为需要通过采样模型分布来计算其相对于模型参数的梯度。
方法:利用非平衡热力学中的贾茨尼斯基等式和顺序蒙特卡洛采样工具,进行高效计算并避免使用标准对比散度算法产生的不受控制的近似值。具体来说,引入了对未调整的Langevin算法(ULA)的修改,其中每个步行者获得一个权重,可以在任何一步进行梯度估计,从而绕过由ULA慢混合引起的采样偏差。
效果:通过高斯混合分布以及MNIST和CIFAR-10数据集的数值实验,证明了该方法在所有考虑的情况下都优于基于对比散度算法的方法。
Interaction Measures, Partition Lattices and Kernel Tests for High-Order Interactions
Zhaolu Liu Robert Peach Pedro A. M. Mediano Mauricio Barahona
研究问题:现有的模型主要依赖成对关系,往往无法捕捉到复杂多变量数据在社会经济、生态或生物医学等领域的完整统计结构。
动机:高阶变量之间的非平凡依赖关系在这些系统的分析和建模中起着重要作用,然而从数据中提取这种高阶交互仍然具有挑战性。
方法:本文提出了一种$d$-阶($d\geq 2$)交互测量的层次结构,逐渐包含可能的联合概率分布的分解,并定义了非参数、基于内核的测试,以系统地确定$d$-阶交互的统计显著性。我们还建立了与格理论的数学联系,阐明了交互测量及其复合排列测试的推导过程;明确了单纯复形与核矩阵定心的联系;并提供了一种增强计算效率的方法。
效果:通过在合成数据上进行验证以及在神经影像数据分析中的应用,我们展示了数值结果。
Learning Efficient Coding of Natural Images with Maximum Manifold Capacity Representations
Thomas Edward Yerxa Yilun Kuang Eero P Simoncelli SueYeon Chung
研究问题:如何有效测量和优化感觉系统的反应特性以获取最大环境信息?
动机:现有的信息理论属性难以在实际环境中进行测量或作为优化的目标函数。
方法:提出了一种新的生态相关效率度量标准——"流形容量",并通过简化的假设将其直接优化,生成了最大流形容量表示(MMCR)。
效果:MMCRs在自我监督学习的标准基准测试中表现优秀,并在一系列神经预测性基准测试中与最先进的BERT模型相媲美。
Efficient Bayesian Learning Curve Extrapolation using Prior-Data Fitted Networks
Steven Adriaensen Herilalaina Rakotoarison Samuel Müller Frank Hutter
研究问题:学习曲线外推旨在预测模型在训练后期的性能,基于早期阶段的性能。
动机:尽管学习曲线外推的内在不确定性需要贝叶斯方法,但现有方法(i)过于严格,和/或(ii)计算成本高。
方法:我们首次将先验数据适应神经网络(PFNs)应用于此情境。PFN是一种经过先验数据预训练的变压器,用于执行单次前向传递的近似贝叶斯推理。我们提出了LC-PFN,这是一种通过MCMC从先前艺术中提出的参数先验生成的1000万个人工右删截学习曲线进行外推的PFN。
效果:实验证明,LC-PFN可以比MCMC更准确地近似后验预测分布,同时速度提高1万倍。此外,同样的LC-PFN在对四种学习曲线基准(LCBench、NAS-Bench-201、Taskset和PD1)进行外推时也取得了有竞争力的性能,这些基准源自于在53个不同数据集上训练各种模型架构(MLPs、CNNs、RNNs和Transformers),输入模态多样(表格、图像、文本和蛋白质数据)。最后,我们在模型选择的背景下探讨了其潜力,发现基于简单LC-PFN的预测早期停止标准在这些数据集中的45个上实现了2-6倍的速度提升,几乎没有额外开销。
Stabilizing the Optimization of Neural Signed Distance Functions and Finer Shape Representation
Huizong Yang Yuxin Sun Ganesh Sundaramoorthi Anthony Yezzi
研究问题:如何通过学习隐式神经表示(INR)来更准确地捕捉形状的几何和拓扑结构。
动机:目前的网络优化方法在处理复杂形状时,会出现不稳定性和收敛到局部最优解的问题,导致无法准确捕获形状的细节。
方法:通过对现有损失函数的分析,提出了一种新的稳定化正则项,并设计了基于二次层的网络结构。
效果:实验证明,新的方法能够更准确地捕捉形状细节和拓扑结构,超越了现有的最先进技术。
Structured Neural Networks for Density Estimation and Causal Inference
Asic Q Chen Ruian Shi Xiang Gao Ricardo Baptista Rahul G Krishnan
研究问题:如何将结构化信息注入神经网络,以学习满足输入子集不变性的功能。
动机:在生成模型中使用神经网络时,编码观察变量的条件独立性结构是有利的,通常以贝叶斯网络的形式。
方法:提出结构化神经网络(StrNN),通过在神经网络中注入掩蔽路径来注入结构。这些掩码通过我们在神经网络架构和二进制矩阵分解之间探索的新关系进行设计,以确保所需的独立性得到尊重。
效果:我们展示了StrNN在三个应用中的效用:(1)使用StrNN进行二进制和高斯密度估计;(2)使用结构化自回归流(StrAFs)和结构化连续归一化流(StrCNF)进行实值密度估计;(3)使用StrAFs进行干预和反事实分析以进行因果推理。我们的工作为数据高效的生成建模和用于因果效应估计的归一化流的使用开辟了新途径。
Scalable Transformer for PDE Surrogate Modeling
Zijie Li Dule Shu Amir Barati Farimani
研究问题:如何利用Transformer模型进行大规模的网格点问题建模,并解决其数值不稳定和计算昂贵的问题。
动机:尽管Transformer在各种应用中表现出了最先进的性能,但在处理大量网格点的问题时,其线性复杂度的注意力机制可能会导致数值不稳定和计算成本高昂。
方法:提出了一种基于轴向因子化核积分的分解Transformer(FactFormer)模型。具体来说,引入了一个可学习的投影算子,将输入函数分解为多个具有一维域的子函数。然后评估这些子函数,并使用轴向因子化方案来计算实例基核。
效果:所提出的模型能够有效地模拟$256\times 256$网格上的二维科尔莫戈洛夫流动和$64times64\times64$网格上的三维烟雾浮力,具有良好的准确性和效率。这种因子化方案可以作为处理多维问题的全注意力方案的高效低秩替代方案。
Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits
Muhammad Faaiz Taufiq Arnaud Doucet Rob Cornish Jean-Francois Ton
研究问题:本文旨在解决现有策略评估方法在上下文环境bandits中存在的高方差问题。
动机:当前的策略评估方法,如逆概率加权(IPW)和双重鲁棒(DR)估计器,在目标策略和行为策略重叠低或动作空间和上下文空间大的情况下,存在高方差的问题。
方法:本文提出了一种新的策略评估器——边际比率(MR)估计器,它专注于结果Y的边际分布的变化,而不是策略本身。通过严格的理论分析,证明了MR估计器相对于传统方法如IPW和DR在降低方差方面的优势。
效果:实验结果表明,MR估计器在合成和真实世界的数据集上都表现出了优越的性能,证实了其在上下文环境bandits的策略评估中的实用性。
Strategic Distribution Shift of Interacting Agents via Coupled Gradient Flows
Lauren E Conger Franca Hoffman Eric Mazumdar Lillian J Ratliff
研究问题:本文旨在提出一种新的框架,用于分析现实世界系统中分布偏移的动态变化,该框架捕捉了学习算法和部署分布之间的反馈循环。
动机:现有的工作大多将反馈引发的分布偏移建模为对抗性的,或者通过过于简单的分布偏移结构进行建模。相比之下,我们提出了一个耦合的偏微分方程模型,通过考虑由于对算法决策的战略性响应、非局部内生种群交互和其他外源引起的分布偏移而产生的复杂动态,来捕捉分布随时间变化的细粒度变化。
方法:我们在机器学习的两个常见设置中考虑问题:信息不对称的合作设置和学习者面临策略性用户的竞争设置。对于这两种设置,当算法通过梯度下降进行再训练时,我们证明了再训练过程在有限维和无限维中都会收敛到稳定状态,并获得了关于模型参数的显式速率。为此,我们推导了关于耦合偏微分方程收敛的新结果,扩展了多物种系统的知识。
效果:实证上,我们表明,我们的方法很好地捕捉到了诸如极化和差异影响等简单模型无法捕捉到的已知形式的分布偏移。
Estimating Koopman operators with sketching to provably learn large scale dynamical systems
Giacomo Meanti Antoine Chatalic Vladimir R Kostic Pietro Novelli massimiliano pontil Lorenzo Rosasco
研究问题:如何有效地预测和分析复杂的动态系统?
动机:现有的非参数机器学习算法在处理复杂动态系统时,计算效率低下。
方法:利用随机投影(sketching)技术提升核空间中主成分回归(PCR)或降维回归(RRR)等Koopman算子估计器的效率。
效果:实验结果表明,新提出的“草图”估计器在保持与PCR或RRR相同的准确性的同时,计算速度大大提高。
Nonparametric Boundary Geometry in Physics Informed Deep Learning
Scott Alexander Cameron Arnu Pretorius Stephen J. Roberts
研究问题:如何有效地解决设计师在三角形网格上指定的具有边界条件的偏微分方程系统。
动机:当前使用机器学习加速解决方案的过程严重依赖于固定的几何参数化,这限制了训练后的模型在不同设计问题上的重用可能性。
方法:提出一种新的神经操作器架构,接受三角形网格形式的边界几何作为输入,并产生给定PDE的近似解作为输出。
效果:一旦训练完成,该模型就可以快速估计新几何上的PDE解决方案,无需重新训练或将几何表示为预指定的参数化。
NCDL: A Framework for Deep Learning on non-Cartesian Lattices
Joshua John Horacsek Usman Alim
研究问题:如何利用非笛卡尔网格进行机器学习。
动机:尽管非笛卡尔网格在数值科学领域如模拟和科学可视化中很重要,但在机器学习中的应用却几乎未被探索,主要原因是数据在非笛卡尔域上的表示困难以及缺乏对非笛卡尔数据的标准机器学习操作支持。
方法:本文提出了一种新的数据结构——格张量,它将传统的张量时空运算推广到格张量上,使得标准机器学习算法能够应用于非笛卡尔数据。同时,我们使用非二元降采样方案将笛卡尔数据转换为非笛卡尔空间以进行进一步处理。
效果:我们引入了一个实现了格张量容器(带有一些常见的机器学习操作)的软件库,并展示了其有效性。我们的方法为非笛卡尔域上的机器学习提供了一个通用框架,解决了上述挑战,填补了当前文献中的空白。
Statistical Limits of Adaptive Linear Models: Low-Dimensional Estimation and Inference
Licong Lin Mufang Ying Suvrojit Ghosh Koulik Khamaru Cun-Hui Zhang
研究问题:在数据收集具有适应性的情况下,统计估计和推断面临重大挑战。
动机:即使对于线性模型,当数据允许被任意适应时,普通最小二乘(OLS)估计器在进行单坐标估计时可能无法表现出渐近正态性,并且误差会增大。
方法:我们探索了利用独立同分布(i.i.d.)数据和使用适应性数据进行估计的性能之间的显著差异。我们研究了数据收集的适应性如何影响高维线性模型中低维参数组件的估计性能。
效果:我们发现,在数据收集机制满足一定条件时,低维参数组件的估计误差可以匹配其在i.i.d.设置中的对应误差,这个因子取决于数据的适应性程度。我们还提出了一种新的单坐标估计器,通过解决两阶段自适应线性估计方程(TALE)。在数据收集适应性较弱的情况下,我们证明了所提出的估计器的渐近正态性属性。
A Framework for Fast and Stable Representations of Multiparameter Persistent Homology Decompositions
David Loiseaux Mathieu Carrière Andrew Blumberg
研究问题:本文旨在解决多参数持久同调的表示问题,以便于整合到标准的机器学习算法中。
动机:现有的方法要么忽略大部分多参数信息以简化为单参数情况,要么在面对噪声时具有潜在的不稳定性。
方法:引入了一个新的通用表示框架,该框架利用了多参数持久同调分解的最新结果。这个框架信息丰富,计算速度快,包含了之前的方法。
效果:通过数值实验验证了稳定性结果和算法,在几个真实数据集上展示了统计收敛性、预测准确性和快速运行时间。
Cognitive Model Discovery via Disentangled RNNs
Kevin J Miller Maria K Eckstein Matthew Botvinick Zeb Kurth-Nelson
研究问题:本文旨在通过数据直接学习简洁的认知模型。
动机:传统的构建认知模型的过程既困难又需要大量的创新和灵感,因此本文采用一种新方法直接从数据中学习简洁的认知模型。
方法:使用循环神经网络拟合行为数据,并对在时间步长之间携带过多信息的模型进行惩罚,从而得到稀疏且可解释的表示和动态。
效果:当拟合已知认知模型的合成行为数据时,该方法能够恢复出这些模型的基本形式。当用于拟合老鼠执行赌博任务的选择数据时,该方法能够恢复出简单且可解释的模型,并对神经机制做出可测试的预测。
Flow Matching for Scalable Simulation-Based Inference
Jonas Bernhard Wildberger Maximilian Dax Simon Buchholz Stephen R Green Jakob H. Macke Bernhard Schölkopf
研究问题:如何将离散正则化流的神经后验估计方法扩展到高维问题。
动机:基于生成模型的最新进展,提出一种使用连续正则化流进行模拟推理(SBI)的方法。
方法:提出流动匹配后验估计(FMPE)技术,利用流动匹配实现无约束架构,提供对复杂数据模态的增强灵活性。
效果:实验表明,FMPE在已建立的SBI基准上取得了有竞争力的性能,并在一个具有挑战性的科学问题上展示了其改进的可扩展性:对于引力波推理,FMPE优于基于可比离散流的方法,训练时间减少了30%,准确性也大大提高。
Max-Sliced Mutual Information
Dor Tsur Ziv Goldfeld Kristjan Greenewald
研究问题:如何量化高维随机变量之间的依赖关系,特别是在统计学习和推理中。
动机:传统的相关性分析(CCA)和互信息(MI)方法在处理高维数据时存在局限性,如CCA只能捕捉线性相关,而互信息在高维情况下难以计算/估计。
方法:提出了一种可扩展的信息理论的CCA泛化方法,称为最大切片互信息(mSMI)。mSMI等于高维变量的低维投影之间的最大互信息,当变量符合高斯分布时,它退化为CCA。
效果:实验表明,mSMI在独立性测试、多视角表示学习、算法公平性和生成模型等任务上的表现优于竞争方法,且计算开销很小。
Probabilistic Inference in Reinforcement Learning Done Right
Jean Tarbouriech Tor Lattimore Brendan O'Donoghue
研究问题:如何有效地进行强化学习中的状态-动作对的最优性后验概率的贝叶斯处理。
动机:现有的近似方法可能导致算法无法实现真正的统计推断,从而在复杂问题上表现不佳。
方法:采用一种新的变分贝叶斯近似方法,将最优性后验概率转化为一个易于处理的凸优化问题。
效果:所提出的方法被称为VAPOR,其性能优于现有方法,并在深度强化学习版本上进行了实验验证。
Transformer-based Planning for Symbolic Regression
Parshin Shojaee Kazem Meidani Amir Barati Farimani Chandan K. Reddy
研究问题:本文旨在解决机器学习中符号回归(SR)的挑战,即如何基于函数值找到数学表达式。
动机:尽管预训练的转换器模型在生成方程序列方面表现出色,但这些模型主要依赖于从文本生成中借用的监督预训练目标,忽视了准确性和复杂性等方程发现目标。
方法:我们提出了TPSR,一种将蒙特卡洛树搜索集成到转换器解码过程中的符号回归转换器规划策略。
效果:广泛的实验表明,我们的方法优于最先进的方法,提高了模型的拟合-复杂度权衡、外推能力和对噪声的鲁棒性。
Modulated Neural ODEs
Ilze Amanda Auzina Cagatay Yildiz Sara Magliacane Matthias Bethge Efstratios Gavves
研究问题:现有的神经常微分方程(NODEs)方法在捕捉不同轨迹的非线性动态方面存在局限,仅能通过初始状态值或自回归编码器更新来捕获变化。
动机:为了改善现有NODE方法的局限性,提出了一种新颖的调制神经ODEs(MoNODEs)框架,该框架将动态状态与潜在的静态变化因素区分开来。
方法:引入了从数据中学习的时不变调制变量,并将其应用于四种现有的NODE变体。
效果:在振荡系统、视频和人类行走轨迹等具有特定调制的轨迹上测试MoNODE,该框架显著提高了现有模型对新的动态参数化进行泛化以及进行远端预测的能力。此外,验证了提出的调制变量能够有效地表示真实的未知变化因素。
Pseudo-Likelihood Inference
Theo Gruner Boris Belousov Fabio Muratore Daniel Palenicek Jan Peters
研究问题:如何有效地进行模拟推理,特别是在高维任务中。
动机:现有的模拟推理方法在处理高维任务时效果不佳。
方法:提出了伪似然推理(PLI)方法,将神经网络近似引入贝叶斯计算,使其在挑战性的贝叶斯系统识别任务上具有竞争力。
效果:在四个经典的模拟推理基准任务和一个高度动态的物理系统上评估了PLI的有效性,结果显示其在随机模拟和多模态后验景观上具有特别的优势。
Star-Shaped Denoising Diffusion Probabilistic Models
Andrey Okhotin Dmitry Molchanov Arkhipkin Sergeevich Vladimir Grigory Bartosh Viktor Ohanesian Aibek Alanov Dmitry P. Vetrov
研究问题:如何定义非高斯或离散分布的Denoising Diffusion Probabilistic Models (DDPMs)?
动机:现有的DDPMs由于其马尔可夫结构,难以定义非高斯或离散的分布。
方法:本文提出了Star-Shaped DDPM (SS-DDPM),其星形扩散过程允许我们绕过定义转移概率或计算后验分布的需要。
效果:在高斯分布的情况下,SS-DDPM等同于DDPM。然而,SS-DDPM为设计如Beta、von Mises–Fisher、Dirichlet、Wishart等分布的扩散模型提供了简单的方法,这在数据位于约束流形上时特别有用。我们在不同设置中评估了该模型,发现即使在图像数据上,Beta SS-DDPM也能取得与高斯DDPM相当的结果。
Learning DAGs from Data with Few Root Causes
Panagiotis Misiakos Chris Wendler Markus Püschel
研究问题:提出一种新的学习有向无环图(DAG)的方法,从线性结构方程模型(SEM)生成的数据中学习。
动机:现有的方法主要处理由大量随机根因生成的数据,而我们考虑的是只有少量根因且存在测量噪声的情况。
方法:我们将线性SEM视为一种线性变换,其从与节点关联的随机值根因的密集输入向量计算数据。当根因数量较少且存在测量噪声时,我们证明了在这种新设置下的可识别性,并表明真实的DAG是根因向量的$L^0$-范数的全局最小值。
效果:对于满足少量根因假设的数据,我们的方法在性能上超过了现有的DAG学习方法。
Causal Component Analysis
Wendong Liang Armin Kekić Julius von Kügelgen Simon Buchholz Michel Besserve Luigi Gresele Bernhard Schölkopf
研究问题:本文旨在介绍一种新的中间问题——因果成分分析(CauCA),它是独立成分分析(ICA)和因果表示学习(CRL)的一般化,可以同时捕捉到潜在变量之间的因果关系和统计依赖性。
动机:传统的ICA和CRL方法在处理潜在变量的独立性和因果关系时存在局限性。CauCA通过引入因果图结构,将两者结合起来,以更好地理解和恢复潜在变量之间的关系。
方法:本文提出了一种基于正则化流的似然估计方法,用于同时学习去混合函数和因果机制。通过在多个数据集上进行干预实验,证明了该方法在CauCA和非线性ICA设置中的有效性。
效果:实验结果表明,所提出的方法在合成数据集上取得了良好的性能,为进一步扩展到CRL提供了可能性。此外,通过对不同类型干预的多个数据集进行分析,还得到了关于CauCA可识别性的新结果。
A Fast and Accurate Estimator for Large Scale Linear Model via Data Averaging
Rui Wang Yanyan Ouyang Panpan Yu Wangli Xu
研究问题:本文关注的问题是在样本尺寸极大且数据维度随样本大小变化的情况下,线性模型的估计问题。
动机:在现有的许多方法中,基于草图技术的方法使用草图数据进行最小二乘估计,但这种方法在维度较大时,其收敛速度往往无法达到最优。
方法:我们提出了一种新的基于数据平均的草图方法,该方法将原始数据减少到几个平均观测值,这些平均观测值仍然满足线性模型并用于估计回归系数。
效果:理论和数值结果表明,所提出的方法在统计性能上表现良好,同时计算成本也较低。
Grassmann Manifold Flows for Stable Shape Generation
Ryoma Yataka Kazuki Hirashima Masashi Shiraishi
研究问题:如何利用特定流形的对称性作为归纳偏置进行机器学习。
动机:格拉斯曼流形能够处理表示为形状空间的基本形状,实现稳定的形状分析。
方法:通过连续归一化流在格拉斯曼流形上学习分布,明确目标是生成稳定的形状。
效果:该方法能有效消除旋转和反转等无关变换的影响,实验结果表明,该方法能捕获数据结构,生成高质量的样本,并在对数似然或证据下界方面显著优于现有方法。
Bayesian Optimisation of Functions on Graphs
Xingchen Wan Pierre Osselin Henry Kenlay Binxin Ru Michael A Osborne Xiaowen Dong
研究问题:如何优化在图结构数据上定义的函数。
动机:随着图结构数据的日益丰富,需要优化在图节点集上定义的函数。传统的图搜索算法可能效率低下且无法利用函数值的信息,而贝叶斯优化是一种高效的黑盒求解器,但尚未应用于此类新设置。
方法:提出了一种新的贝叶斯优化框架,用于优化在通用、大规模和潜在未知的图上定义的函数。通过学习图上的合适核函数,该框架能够适应目标函数的行为。局部建模方法进一步保证了该方法的效率。
效果:在合成和真实世界的图上的大量实验证明了所提出的优化框架的有效性。
Sample based Explanations via Generalized Representers
Che-Ping Tsai Chih-Kuan Yeh Pradeep Kumar Ravikumar
研究问题:提出一种基于样本的机器学习模型解释方法,即广义表示器。
动机:现有的样本解释方法无法满足一些公理性质,需要一种新的解释方法。
方法:使用全局样本重要性和局部样本重要性两个组件来测量训练样本对模型测试预测的影响,其中全局样本重要性是模型对训练点的量化重要性,与测试样本无关,而局部样本重要性则通过核函数测量训练样本和测试点之间的相似性。
效果:实证比较了不同的广义表示器在两个图像分类数据集上的效果,证明了广义表示器是唯一一类满足公理性质的基于样本的解释方法。
Bounded rationality in structured density estimation
Tianyuan Teng Li Kevin Wenliang Hang Zhang
研究问题:人类大脑如何在有限的资源下,从无限的概率分布空间中构建内部模型,以准确表示环境不确定性。
动机:理解人类如何学习并处理不确定性对于各种认知任务中的自适应和最优行为至关重要。
方法:通过一个新颖的结构化密度估计任务,让参与者对连续呈现的独立观察进行潜在概率分布函数的形成和报告。
效果:随着观察数量的增加,报告的预测密度更接近真实值。然而,观察到在结构估计中存在明显的不一致性,即报告的聚类数量误差大。这种不一致性与分布的规模无关,且在不同的刺激模态中持续存在。
Pairwise Causality Guided Transformers for Event Sequences
Xiao Shou Debarun Bhattacharjya Tian Gao Dharmashankar Subramanian Oktie Hassanzadeh Kristin Bennett
研究问题:尽管在许多学科中,配对因果关系已经在观察性纵向分析中得到广泛研究,但研究问题:尽管在许多学科中,配对因果关系已经在观察性纵向分析中得到广泛研究,但将配对因果关系的知识纳入深度学习模型以处理时间序列事件仍然在很大程度上未被探索。
动机:本文的动机是提出一种新的方法,通过注入“事件Z放大未来事件Y的发生”等配对定性因果关系的知识,来提高基于变压器的模型在多变量事件序列中的性能。
方法:我们建立了一个新的框架,使用变压器架构进行时间序列事件的因果推断,为该方法提供了理论依据,并展示了如何获得所提出的无偏估计量。
效果:实验结果表明,我们的方法通过有效地利用关于因果关系对的知识,在预测准确性方面优于几种最先进的模型。我们还考虑了一个独特的应用,即通过大型语言模型生成社会事件序列,并展示因果知识图如何帮助预测此类序列中的事件。总的来说,我们的框架为提高基于变压器的模型在多变量事件序列中的性能提供了一种实用的方法,通过显式地利用配对因果关系信息。
Riemannian Laplace approximations for Bayesian neural networks
Federico Bergamin Pablo Moreno-Muñoz Søren Hauberg Georgios Arvanitidis
研究问题:贝叶斯神经网络通常使用高斯分布来近似权重后验,但实际的后验分布通常是高度非高斯的,导致性能下降。
动机:提出一种简单的参数近似后验方法,通过黎曼度量适应真实后验的形状,该度量由对数后验梯度确定。
方法:开发了一种黎曼拉普拉斯近似方法,其中样本自然落入具有低负对数后验的权重区域。通过利用黎曼度量的结构以及自动微分,可以有效地解决求解常微分方程组的问题。
效果:实验结果表明,该方法在各种任务上始终优于传统的拉普拉斯近似方法。与常规的拉普拉斯近似方法不同,该方法对先验的选择不敏感,缓解了当前方法的实际缺陷。
Generalized Bayesian Inference for Scientific Simulators via Amortized Cost Estimation
Richard Gao Michael Deistler Jakob H. Macke
研究问题:如何对科学模拟器进行稳健且模拟负担小的推理?
动机:目前的贝叶斯推理方法在模拟器模型不准确时,可能会过于限制。
方法:提出一种用于广义贝叶斯推理(GBI)的模拟负担估计(ACE)方法,通过训练神经网络来近似成本函数,然后使用蒙特卡洛马尔科夫链(MCMC)进行GBI后验推断。
效果:ACE能更准确地预测成本,并为观察提供更接近合成观测的预测模拟,特别是在模拟器不准确的情况下。将ACE应用于Hodgkin-Huxley模型参数推断,结果比标准SBI方法更有效。
Variational Annealing on Graphs for Combinatorial Optimization
Sebastian Sanokowski Wilhelm Franz Berghammer Sepp Hochreiter Sebastian Lehner
研究问题:本文旨在解决现有无监督学习方法在解决组合优化问题上的性能限制。
动机:目前的无监督学习方法基于独立解变量的假设,这在某些困难的问题实例上会限制性能。
方法:引入子图标记化技术,将一组解变量的配置表示为单个标记,以缓解固有于自回归方法的长序列采样过程的缺点,同时不牺牲表达能力。此外,还提出了一种退火熵正则化方法。
效果:实验结果表明,这种方法在许多流行的组合优化问题上表现出优越的性能,且学习效率高且稳定。
The Graph Pencil Method: Mapping Subgraph Densities to Stochastic Block Models
Lee M. Gunderson Gecia Bravo-Hermsdorff Peter Orbanz
研究问题:如何将子图密度精确映射到随机块模型(SBM)的参数上。
动机:为了解决在有限子图密度下,确定对应随机块模型的问题。
方法:通过一种方法,将子图密度从一组有限的子图中确定出来,并转化为随机块模型的参数。
效果:该方法可以将子图密度直接用于推理,并且计算开销可以忽略不计。
Canonical normalizing flows for manifold learning
Kyriakos Flouris Ender Konukoglu
研究问题:如何通过低维流形描述数据,实现对数据的高效表示?
动机:目前的流形学习方法往往学习到的是一个纠缠的、各维度信息退化的内在基,而非有效的数据表示。
方法:提出一种正交和/或稀疏基的流形学习方法,即规范流形学习方法,通过最小化非对角流形度量元素的L1范数,使变换矩阵具有少量突出且非退化的基函数。
效果:在大多数实验中,规范流形学习方法比其他流形学习方法更能有效地利用潜在空间,自动生成更少突出和不同的维度来表示数据,从而更好地逼近目标分布,得到更低的FID分数。
SmoothHess: ReLU Network Feature Interactions via Stein's Lemma
Max Torop Aria Masoomi Davin Hill Kivanc Kose Stratis Ioannidis Jennifer Dy
研究问题:如何解释性地模型化神经网络特征交互作用,特别是对于ReLU网络的挑战。
动机:现有的方法通过查看神经网络的Hessian来模型化特征交互作用,但对于几乎处处为零Hessian的ReLU网络来说,这构成了挑战。
方法:我们提出了SmoothHess方法,通过斯坦因引理估计二阶交互作用。具体来说,我们通过有效的采样算法对网络进行高斯卷积并估计其Hessian,只需要网络梯度调用即可。
效果:我们在基准数据集和一个真实世界的医疗肺活量测试数据集上验证了SmoothHess捕捉交互作用的优越能力。
Effective Bayesian Heteroscedastic Regression with Deep Neural Networks
Alexander Immer Emanuele Palumbo Alexander Marx Julia E Vogt
研究问题:如何灵活地量化复杂回归问题中的不可约随机性和模型依赖性知识不确定性。
动机:尽管深度神经网络原则上可以通过非线性函数提供这种灵活性并学习异方差随机性,但最近的研究表明,由于预测方差会缩放梯度,以均值和方差为参数的最大对数似然目标可能会导致妥协的平均适应。
方法:我们提出使用高斯的自然参数化,这已被证明对于基于非线性特征映射和高斯过程的异方差回归更稳定。此外,我们强调网络参数和预测的原则性正则化的重要性。因此,我们提出了一种高效的异方差神经网络的拉普拉斯近似方法,该方法通过经验贝叶斯实现自动正则化并提供知识不确定性,从而提高了泛化能力。
效果:我们在一系列回归问题上展示了我们的方法——包括一个新的异方差图像回归基准——我们的方法是可扩展的,改进了以前的异方差回归方法,并且在不需要超参数调整的情况下提供了知识不确定性。
Individualized Dosing Dynamics via Neural Eigen Decomposition
Stav Belogolovsky Ido Greenberg Danny Eytan Shie Mannor
研究问题:如何利用神经网络微分方程解决医疗剂量模型中的噪声敏感性和个体化问题。
动机:传统的剂量模型对噪声敏感,且难以适应不断变化的治疗政策。
方法:提出神经本征随机微分方程算法(NESDE),通过超网络进行个体化建模,使用解耦控制实现对新治疗政策的泛化,根据噪声级别调整模型的表达能力,并使用频谱表示进行快速、连续、闭型预测。
效果:在合成和真实医疗问题上验证了NESDE的鲁棒性,并利用学习到的动力学发布模拟医疗健身房环境。
Sample Complexity Bounds for Score-Matching: Causal Discovery and Generative Modeling
Zhenyu Zhu Francesco Locatello Volkan Cevher
研究问题:本文旨在为得分匹配及其在因果发现中的应用提供统计样本复杂度界限。
动机:准确的得分函数估计是可以实现的,通过使用随机梯度下降训练标准的深度ReLU神经网络。
方法:我们建立了关于使用Rolland等人[2022]的基于得分匹配的因果发现方法恢复因果关系的错误率的界限,假设对得分函数的估计足够好。
效果:最后,我们在得分基础生成模型内分析了得分匹配估计的上界,这已被应用于因果发现,但在生成模型领域内也具有独立的兴趣。
Nonparametric Identifiability of Causal Representations from Unknown Interventions
Julius von Kügelgen Michel Besserve Wendong Liang Luigi Gresele Armin Kekić Elias Bareinboim David Blei Bernhard Schölkopf
研究问题:本文旨在从高维函数(“混合”)中推断潜在的因果变量及其因果关系,无需对生成过程的部分知识了解。
动机:现有的工作依赖于弱监督,如反事实的预先和事后干预视图或时间结构;对混合函数或潜在因果模型施加限制性假设,如线性;或者需要部分了解生成过程,如因果图或干预目标。
方法:我们考虑了因果模型和混合函数都是非参数化的一般设置。学习信号的形式是来自未知干预的潜在因果模型产生的多个数据集或环境。
效果:我们证明了观察分布和一个完美的节点干预足以识别,满足一个泛化条件。对于任意数量的变量,我们展示了每个节点至少一对不同的完美干预域可以保证可识别性。此外,我们发现潜在变量之间的因果关系强度在所有等效解决方案中都得到了保留,使得推断的表示适合从新数据中得出因果结论。
FAST: a Fused and Accurate Shrinkage Tree for Heterogeneous Treatment Effects Estimation
Jia Gu Caizhi Tang Han Yan Qing Cui Longfei Li JUN ZHOU
研究问题:本文提出了一种新的异质性处理效应估计策略,称为融合和精确收缩树(FAST)。
动机:受到统计中收缩估计的启发,我们开发了一种最优加权方案和相应的平衡基于试验数据的无偏估计器与基于观察数据的有偏估计器的估计器。
方法:结合基于树的技术,我们引入了一个新的分裂标准,利用试验数据和观察数据更准确地估计处理效应。
效果:通过模拟和真实数据分析,证明了FAST及其集成版本在有限样本性能上优于现有方法。
Advancing Bayesian Optimization via Learning Correlated Latent Space
Seunghun Lee Jaewon Chu Sihyeon Kim Juyeon Ko Hyunwoo J. Kim
研究问题:优化黑盒函数的有效方法。
动机:现有的优化方法在离散数据上存在潜在的次优解。
方法:提出关联潜在空间贝叶斯优化(CoBO),通过学习距离在潜在空间和目标函数内强相关的关联潜在空间来减小固有差距。
效果:在分子设计和算术表达式拟合等优化任务中表现出色,且在小预算下实现高性能。
Operator Learning with Neural Fields: Tackling PDEs on General Geometries
Louis Serrano Lise Le Boudec Armand Kassaï Koupaï Thomas X Wang Yuan Yin Jean-Noël Vittaut patrick gallinari
研究问题:本文旨在解决使用机器学习方法解决偏微分方程时需要学习函数空间之间的映射的问题。
动机:尽管卷积神经网络或图神经网络在离散函数上有所限制,但神经算子为直接映射函数提供了有希望的里程碑。然而,它们在领域几何方面仍然面临挑战,并且通常依赖于某种形式的离散化。
方法:为了减轻这些限制,我们提出了一种新的方法CORAL,该方法利用基于坐标的网络来解决一般几何上的偏微分方程。CORAL的设计消除了对输入网格的限制,使其适用于任何空间采样和几何形状。
效果:CORAL在多个分辨率上都表现出强大的性能,并在凸和非凸域中都表现出色,超越了或与最先进的模型相媲美。
Fast Bellman Updates for Wasserstein Distributionally Robust MDPs
Zhuodong Yu Ling Dai Shaohang Xu Siyang Gao Chin Pang Ho
研究问题:Markov决策过程在模型模糊性下常面临敏感性问题,如何有效解决?
动机:近年来,鲁棒MDPs作为一种有效的框架出现以克服这一挑战。分布鲁棒MDPs通过引入不确定模型参数的分布信息来缓解鲁棒MDPs的保守性。
方法:本文提出了一种计算效率高的解决方案框架,用于解决具有Wasserstein不确定性集的分布鲁棒MDPs问题。该框架利用特定问题结构将与分布鲁棒贝尔曼更新相关的优化问题分解为更小的子问题,这些子问题可以有效解决。
效果:数值实验表明,所提出的算法优于其他最先进的解决方案方法。
ContinuAR: Continuous Autoregression For Infinite-Fidelity Fusion
WEI W. XING Yuxin Wang Zheng Xing
研究问题:多保真度融合是一种重要的替代技术,可以提供对昂贵计算机模拟的见解,并有效改进决策,但其缺乏一个系统框架来利用保真度指标,处理高维和任意数据结构,以及很好地扩展到无限保真度问题。
动机:尽管多保真度融合技术发展迅速,但它们在处理高维和任意数据结构、利用保真度指标以及扩展到无限保真度问题上仍存在挑战。
方法:本研究首先将流行的自回归(AR)推广为一种新的线性保真微分方程(FiDE),为可追踪的无限保真度融合铺平了道路。然后,我们将FiDE推广到高维系统,这也提供了一个统一的框架,似乎弥合了多种多保真度和单保真度基于GP的模型之间的差距。最后,我们提出了ContinuAR,这是FiDE的一种秩-1近似解决方案,易于训练,与任意多保真度数据结构兼容,可线性扩展到输出维度,最重要的是,其性能始终优于基线方法。
效果:与传统的SOTA无限保真度融合IFC相比,ContinuAR在准确性上提高了4倍,在训练时间上加快了62,500倍。
Equivariant flow matching
Leon Klein Andreas Krämer Frank Noe
研究问题:如何有效地构建适用于统计物理学中多体系统的生成模型,并解决现有连续归一化流(CNFs)训练和采样计算昂贵的问题。
动机:为了解决统计物理学中的长期采样问题,需要训练流以产生诸如小分子和蛋白质等多体系统的平衡样本。为此,将目标能量的对称性纳入模型至关重要,而等变连续归一化流(CNFs)可以实现这一点。然而,CNFs的训练和采样计算可能非常昂贵,限制了它们的可扩展性和实际应用。
方法:本文提出了等变流匹配,这是一种基于最近提出的最优传输流匹配的新等变CNF训练目标。等变流匹配利用目标能量的物理对称性进行高效、无模拟的等变CNF训练。
效果:我们在旋转和排列不变的多粒子系统和小分子丙氨酸二肽上展示了流匹配的有效性。我们首次获得了不依赖于特定内部坐标特征化的具有显著采样效率的玻尔兹曼生成器。结果显示,与现有方法相比,等变流匹配目标产生的流具有更短的积分路径、更高的采样效率和更高的可扩展性。
Implicit Manifold Gaussian Process Regression
Bernardo Fichera Viacheslav Borovitskiy Andreas Krause Aude Billard
研究问题:如何将高维数据的隐式低维流形结构直接从数据(有标签和无标签)中推断出来,以改善高维情况下的预测性能和校准效果。
动机:传统的高维数据处理方法在处理小或稀疏数据集时表现良好,但在处理高维数据时会遇到困难。通过利用数据实际所在的隐式低维流形,可以扩展高维数据处理技术。
方法:本文提出了一种能够直接从数据(有标签和无标签)中推断出隐式结构的高斯过程回归技术,并以完全可微的方式实现。对于所得模型,讨论了其在假设流形上的Matern高斯过程的收敛性。
效果:该技术可扩展到数十万个数据点,并可能提高标准高斯过程回归在高维设置中的预测性能和校准效果。
Causal Interpretation of Self-Attention in Pre-Trained Transformers
Raanan Yehezkel Rohekar Yaniv Gurwicz Shami Nisimov
研究问题:本文旨在提出Transformer神经网络架构中自我注意力的因果解释,并探索其在学习序列中的因果关系方面的应用。
动机:现有的预训练Transformer模型可以捕捉丰富的语义模式,但缺乏对输入序列中因果关系的理解。
方法:将自我注意力解释为给定输入符号序列的结构方程模型,该模型可以在特定上下文下解读为输入符号的因果结构。通过计算最深注意力层中对应表示的偏相关性,估计输入符号之间的条件独立性关系,从而学习输入序列的因果结构。
效果:在情感分类和推荐两个任务中,该方法能够提供Transformers结果的因果解释,验证了其在零样本因果发现方面的潜力。
Credal Marginal MAP
Radu Marinescu Debarun Bhattacharjya Junkyu Lee Fabio Cozman Alexander G. Gray
研究问题:本文旨在解决在信度网络中执行边际最大后验概率(MAP)推断的困难,特别是在评估每个完整的MAP分配时需要进行精确的概率计算。
动机:由于在信度网络中进行边际MAP推断需要对所有可能的MAP变量的边际分布进行精确的概率计算,因此这一任务非常困难。
方法:本文提出了基于变量消除和深度优先搜索的新精确方法,以及基于迷你桶分区和随机局部搜索的几种近似方案。
效果:通过大量的实验评估,证明了这些新方法在随机和真实世界基准问题上的有效性。
Deep Recurrent Optimal Stopping
NIRANJAN DAMERA VENKATA Chiranjib Bhattacharyya
研究问题:如何有效地将深度神经网络(DNNs)应用于非马尔科夫最优停止问题。
动机:现有的基于DNN的方法在扩展到非马尔科夫设置时,需要显著扩展状态和参数空间,表现出维度诅咒的问题。
方法:首次引入了一种最优停止策略梯度算法(OSPG),该算法通过隐式优化值函数而不进行递归,有效地利用RNNs解决非马尔科夫问题,减轻了非马尔科夫性诅咒的影响。
效果:OSPG算法源自于一种新颖的离散时间非马尔科夫最优停止轨迹的贝叶斯网络表示的推理过程,因此它产生了一种离线策略梯度算法,消除了昂贵的蒙特卡洛策略模拟。
Stochastic Approximation Algorithms for Systems of Interacting Particles
Mohammad Reza Karimi Jaghargh Ya-Ping Hsieh Andreas Krause
研究问题:交互式粒子系统在各种机器学习任务中表现出色,但其分析通常依赖于平均场极限的简化假设。然而,实际应用中使用的是离散时间步、有限粒子数和复杂的积分方案,这在连续时间和离散时间过程之间造成了理论差距。
动机:本文提出了一种新的框架,建立了离散时间方案与其对应的平均场极限之间的精确联系,包括收敛性质和渐进行为。
方法:通过采用动态系统的视角,该框架无缝集成了各种通常独立分析的数值方案。例如,该框架为优化无限宽度的两层神经网络和通过斯坦因变分梯度下降进行采样提供了统一的处理方式,这两者以前是分别研究的。
效果:实验结果表明,该框架能够清晰地理解和比较不同的数值方案,有助于提高机器学习任务的性能。
Structured Voronoi Sampling
Afra Amini Li Du Ryan Cotterell
研究问题:本文旨在为基于梯度的文本生成任务构建一个理论可靠且有原则的方法。
动机:尽管梯度采样算法在文本生成中表现出了其有效性,但目前缺乏对此任务的理论支持和基本原则方法。
方法:利用语言模型给出的离散分布定义密度,并基于汉密尔顿蒙特卡洛算法进行采样,将这种基于梯度的技术命名为结构化Voronoi采样(SVS)。
效果:实验结果显示,与替代采样方案相比,SVS样本的经验分布更接近参考分布。此外,在控制生成任务中,SVS能够生成流畅且多样化的样本,同时显著优于其他方法。
DYffusion: A Dynamics-informed Diffusion Model for Spatiotemporal Forecasting
Salva Rühling Cachay Bo Zhao Hailey James Rose Yu
研究问题:本文旨在解决扩散模型主要用于静态图像生成和预测,对于动态预测能力不足的问题。
动机:目前的扩散模型主要针对静态图像进行设计,对于动态预测的能力有限。因此,本文提出了一种利用数据中编码的时序动态来训练扩散模型的新方法。
方法:本文提出的方法通过直接耦合网络中的扩散步骤与数据中的时序动态,训练了一个随机的、时间条件化的插值器和一个模拟传统扩散模型正向和反向过程的主预测器网络。这种设计选择自然地编码了多步和长范围预测能力,使得采样轨迹具有高度的灵活性和连续性,同时在推理时可以权衡性能和加速采样。此外,动态感知的扩散过程引入了强烈的归纳偏置,与传统基于高斯噪声的扩散模型相比,提高了计算效率。
效果:实验结果表明,本文提出的方法在复杂的动态预测任务上表现出色,包括海表面温度、纳维-斯托克斯流和弹簧网格系统等。该方法在概率技能评分指标上具有竞争力。
Policy Gradient for Rectangular Robust Markov Decision Processes
Navdeep Kumar Esther Derman Matthieu Geist Kfir Yehuda Levy Shie Mannor
研究问题:本文旨在解决强化学习中的策略梯度方法无法处理转换不确定性的问题,以及学习稳健策略的计算成本高昂的问题。
动机:目前的扩散模型主要针对静态图像进行设计,对于动态预测的能力有限。因此,本文提出了一种利用数据中编码的时序动态来训练扩散模型的新方法。
方法:本文提出的方法通过直接耦合网络中的扩散步骤与数据中的时序动态,训练了一个随机的、时间条件化的插值器和一个模拟传统扩散模型正向和反向过程的主预测器网络。这种设计选择自然地编码了多步和长范围预测能力,使得采样轨迹具有高度的灵活性和连续性,同时在推理时可以权衡性能和加速采样。此外,动态感知的扩散过程引入了强烈的归纳偏置,与传统基于高斯噪声的扩散模型相比,提高了计算效率。
效果:实验结果表明,本文提出的方法在复杂的动态预测任务上表现出色,包括海表面温度、纳维-斯托克斯流和弹簧网格系统等。该方法在概率技能评分指标上具有竞争力。
Automatic Integration for Spatiotemporal Neural Point Processes
Zihao Zhou Rose Yu
研究问题:如何有效地对连续时间点过程进行学习,特别是在空间和时间上具有复杂性的时空点过程(STPPs)。
动机:现有的方法在处理STPP的积分问题上存在挑战,如假设强度函数的参数形式缺乏灵活性,或使用蒙特卡洛采样近似强度函数引入数值误差。
方法:本文提出了一种新的范式“Auto-STPP”,将双网络方法扩展到3D STPP,并引入了一种可分解的积分网络参数化方法,利用ProdNet将复杂的多变量计算图简化为单变量图的乘积,从而避免了多变量计算图中固有的计算复杂性。
效果:实验证明“Auto-STPP”的一致性,并在合成数据和基准真实世界数据集上进行了验证。“Auto-STPP”在从不规则时空事件中恢复复杂强度函数方面表现出显著优势,特别是在强度被锐利定位时。
Causal de Finetti: On the Identification of Invariant Causal Structure in Exchangeable Data
Siyuan Guo Viktor Tóth Bernhard Schölkopf Ferenc Huszár
研究问题:约束性因果发现方法主要利用条件独立性测试来推断各种应用中的因果关系,但研究问题:约束性因果发现方法主要利用条件独立性测试来推断各种应用中的因果关系,但现有的工作主要集中在研究独立同分布的数据上,这限制了因果发现的深度。
动机:研究者发现,与独立同分布数据相比,可交换数据具有更丰富的条件独立性结构,可以用于更深层次的因果发现。
方法:研究者首先提出了因果德·菲内蒂定理,该定理指出具有某些非平凡条件独立性的可交换分布总可以被表示为独立的因果机制生成过程。然后,他们提出了主要的识别定理,该定理表明,给定来自ICM生成过程的数据,其唯一的因果结构可以通过执行条件独立性测试来识别。最后,他们开发了一种因果发现算法,并证明了该算法可以用于从多环境数据中推断因果关系。
效果:实验结果表明,这种新的因果发现方法在各种知识驱动任务上取得了显著改进,并且在其他常见的自然语言处理任务上与最先进的BERT模型相媲美。
Differentiable Neuro-Symbolic Reasoning on Large-Scale Knowledge Graphs
CHEN SHENGYUAN YUNFENG CAI Huang Fang Xiao Huang Mingming Sun
研究问题:如何有效地结合规则和知识图谱嵌入进行推理,以实现精确且高效的推理。
动机:现有的知识图谱推理方法,无论是基于规则的还是基于嵌入的,都有其优点和缺点。因此,需要一种新的方法来结合两者的优点。
方法:提出了一种名为DiffLogic的可微分框架,通过动态规则和权重自适应选择关键三元组,并使用连续的概率软逻辑网络评估整体一致性,实现了端到端的可微分优化。
效果:在基准数据集上,DiffLogic在有效性和效率上都超过了基线方法。
Detecting hidden confounding in observational data using multiple environments
Rickard Karlsson JH Krijthe
研究问题:在观察性数据中进行因果推断时,一个常见的假设是没有隐藏的混杂因素。然而,从单个数据集中验证隐藏混杂因素的存在通常是不可能做到的。
动机:在数据生成过程中存在独立因果关系的假设下,我们展示了一种方法来检测来自不同环境的多个观察数据集中的未观察到的混杂因素。
方法:我们提出了一种仅在存在隐藏混杂因素时才缺失的条件独立性理论,并检查了违反其假设的情况:退化和依赖机制以及忠实性违规。此外,我们提出了一种测试这些独立性的程序,并使用模拟研究和基于真实世界数据集的半合成数据来研究其经验上的有限样本行为。
效果:在大多数情况下,所提出的过程正确预测了隐藏混杂因素的存在,特别是当混杂偏差较大时。
Entropy-dissipation Informed Neural Network for McKean-Vlasov Type PDEs
Zebang Shen Zhenfu Wang
研究问题:解决涉及奇异交互核的McKean-Vlasov方程(MVE)的挑战,特别是在提供严谨的理论保证方面。
动机:物理系统中的交互项可以是奇异的,即当两个粒子碰撞时会发散。这种相互作用的显著例子包括在等离子体物理学中的基本库仑相互作用和在流体动力学中的二维纳维尔-斯托克斯方程(NSE)的涡度公式中的毕奥-萨瓦特相互作用。
方法:我们提出了一种基于底层系统熵耗散概念的新方法。我们推导出一个有效的控制假设解与真实解之间的KL发散的潜在函数。在此基础上,我们引入了熵耗散信息神经网络(EINN)框架来解决MVEs。在EINN中,我们利用神经网络(NN)来近似底层速度场并最小化提出的潜在函数。通过利用NN的表达能力,我们的方法为应对奇异交互的复杂性提供了有希望的途径。
效果:通过与最先进的基于NN的MVE求解器进行比较,结果表明我们的方法在解决各种示例问题上有效。
Convergence analysis of ODE models for accelerated first-order methods via positive semidefinite kernels
Jungbin Kim Insoon Yang
研究问题:本文旨在提出一种新的方法,通过将证明收敛速度的任务转化为验证特定的希尔伯特-研究问题:本文旨在提出一种新的方法,通过将证明收敛速度的任务转化为验证特定的希尔伯特-施密特积分算子的正半定性,系统地分析一阶优化方法的常微分方程模型。
动机:不同于以往依赖于有限维线性代数的研究,我们的方法基于函数分析工具,对性能估计问题进行研究。
方法:我们使用提出的新方法,建立了各种加速梯度流模型的收敛速度,其中一些是新的。
效果:作为我们框架的一个直接结果,我们展示了最小化函数值和最小化梯度范数之间的对应关系。
Computational Guarantees for Doubly Entropic Wasserstein Barycenters
Tomas Vaskevicius Lénaïc Chizat
研究问题:本文旨在研究双重正则化Wasserstein重心计算,这是一种由内部和外部正则化强度控制的熵重心的新家族。
动机:先前的研究已经证明,不同的正则化参数选择可以将几种熵惩罚重心的概念统一起来,同时也揭示了新的一类,包括去偏心重心的一个特例。
方法:本文提出了一种计算双重正则化Wasserstein重心的算法。该过程基于阻尼Sinkhorn迭代,然后进行精确的最大/最小化步骤,并保证对于任何正则化参数的选择都能收敛。
效果:我们算法的一种非精确变体,可以使用近似蒙特卡洛采样实现,为在自由支持/无网格设置中近似离散点云之间的Wasserstein重心提供了首个非渐近收敛保证。
Neural Processes with Stability
Huafeng Liu Liping Jing Jian Yu
研究问题:如何通过结合神经网络和随机过程的优点,定义一种灵活的随机过程类,以适应高度复杂的函数?
动机:传统的统计模型依赖于手动指定的先验,而神经过程(NPs)作为一种新型的强大神经统计模型,能够将上下文知识编码到函数空间中,更适合处理高度复杂的函数。
方法:通过引入算法稳定性的概念,为各种神经过程提供理论指导,以实现更稳定、更具泛化性的解。
效果:实验证明,该方法不仅能够提高性能准确性,还能增强模型鲁棒性。
A Scale-Invariant Sorting Criterion to Find a Causal Order in Additive Noise Models
Alexander Gilbert Reisach Myriam Tami Christof Seiler Antoine Chambaz Sebastian Weichwald
研究问题:本文旨在探讨加性噪声模型(ANMs)在观察性数据中进行因果发现的问题。
动机:由于缺乏已知底层ANM的真实世界数据,通常使用随机抽样参数的ANM来模拟数据以评估因果发现算法。作者发现,对于许多ANM参数选择,按变量增加的方差排序会产生接近因果顺序的排序,并引入“var-sortability”来量化这种对齐。
方法:作者提出一种新的模式,即可解释变量的方差比例(R²)倾向于沿因果顺序增加,即使在标准化后也保持不变。因此,他们提出了一种称为“R²-SortnRegress”的高效基线算法,该算法利用高R²-sortability,可以匹配和超越已建立的因果发现算法。
效果:实验结果表明,在具有不同模拟参数的合成数据上,R²-sortability表现出很高的值。这些发现揭示了高R²-sortability作为与因果发现相关的数据生成过程的假设,并且是许多ANM采样方案中的隐含假设。
Comparing Causal Frameworks: Potential Outcomes, Structural Models, Graphs, and Abstractions
Duligur Ibeling Thomas Icard
研究问题:本文旨在明确和精确化鲁宾因果模型(RCM)和结构因果模型(SCM)在因果推断中的关联。
动机:采用中立的逻辑视角,借鉴先前的研究,展示RCM如何被SCM表示。
方法:通过指出一个关键结果,即每个RCM——包括那些违反由SCM框架暗示的代数原理的RCM——都会出现为一些可表示的RCM的抽象。
效果:最后,我们通过强调SCM原则在经典RCM应用中的重要角色来说明这种改进观点的力量;相反,我们提供了一种图的代数约束的特性描述,有助于进一步比较这两个框架。
Learning Interpretable Low-dimensional Representation via Physical Symmetry
Xuanjie Liu Daniel Chin Yichen Huang Gus Xia
研究问题:如何从无标签的音乐音频中学习出解释性强的表示,特别是与人类感知一致的低维因素。
动机:大多数音乐表示学习方法严重依赖音乐领域知识,而我们想要探索的是通用的计算原理如何产生解释性强的表示。
方法:借鉴现代物理学,使用物理对称性作为潜在空间的自我一致性约束。具体来说,它要求表征潜在状态动态的先验模型在某些群变换下具有等变性。
效果:实验表明,物理对称性使模型能够以自监督的方式从无标签的单音音乐音频中学习线性音高因子。此外,相同的方法论也可以应用于计算机视觉,在没有标签的情况下从简单移动物体的视频中学习3D笛卡尔空间。此外,物理对称性自然地导致表示增强,这是一种提高样本效率的新技术。
Stabilized Neural Differential Equations for Learning Dynamics with Explicit Constraints
Alistair White Niki Kilbertus Maximilian Gelbrecht Niklas Boers
研究问题:如何从数据中学习动态系统,同时确保推断的动力学保持已知的约束条件。
动机:现有的方法在保证已知约束条件的同时学习动态系统存在挑战。
方法:提出稳定化神经网络微分方程(SNDEs)方法,通过添加稳定化项到原始动力学中,使约束曲面被证明为渐近稳定,从而强制任意曲面约束。
效果:SNDEs方法在所有常见的神经网络微分方程模型中都适用,且在广泛的实证评估中表现优于现有方法,同时扩大了可以纳入NDE训练的约束类型。
Homotopy-based training of NeuralODEs for accurate dynamics discovery
Joon-Hyuk Ko Hankyul Koh Nojun Park Wonho Jhe
研究问题:如何有效地从时间序列数据中提取动态规律,并提高神经网络微分方程模型的训练效率和结果质量。
动机:虽然神经网络微分方程模型能够将神经网络与基于物理科学的微分方程建模范式相结合,但目前的方法在训练时间和结果上表现不佳,特别是对于较长持续时间的数据。
方法:本文提出了一种新的神经网络微分方程训练方法,该方法基于同步和同伦优化,不需要改变模型架构。通过同步模型动态和训练数据,可以驯服原本不规则的损失景观,然后利用同伦优化来增强训练效果。
效果:实验结果表明,该方法在训练损失上具有竞争力或更好的效果,同时通常需要的培训周期数不到其他模型无关技术的二分之一。此外,用我们的方法训练的模型显示出更好的外推能力,突显了我们方法的有效性。
Assumption violations in causal discovery and the robustness of score matching
Francesco Montagna Atalanti A. Mastakouri Elias Eulig Nicoletta Noceti Lorenzo Rosasco Dominik Janzing Bryon Aragam Francesco Locatello
研究问题:在领域知识有限,实验受到道德、财务或时间限制时,研究人员如何利用观察性因果发现方法恢复因果结构?
动机:由于没有进一步假设的因果发现是一个定义不清的问题,每个算法都有自己的一组通常无法测试的假设,其中一些在真实数据集上很难满足。
方法:本文对最近在违反每种选定方法所需的关键假设的不同背景条件下生成的观察性独立同分布数据上的因果发现方法进行了广泛的基准测试。
效果:实验结果表明,基于得分匹配的方法在这些具有挑战性的场景中,对推断图中的假阳性和假阴性率表现出惊人的性能,并且我们为其性能提供了理论见解。这项工作也是第一次努力对因果发现算法的稳定性进行基准测试,以了解其超参数值的影响。最后,我们希望本文能为评估因果发现方法设定新的标准,并作为对该领域感兴趣的从业人员易于理解的切入点,突出不同算法选择的经验影响。
PICProp: Physics-Informed Confidence Propagation for Uncertainty Quantification
Qianli Shen Wai Hoh Tang Zhun Deng Apostolos Psaros Kenji Kawaguchi
研究问题:深度学习和物理信息学习中不确定性量化的标准方法存在持久的限制。
动机:当前的方法需要对数据可能性做出强烈的假设,性能高度依赖于先验的选择,并且后验只能近似采样,由于相关的计算成本,这会导致较差的近似结果。
方法:本文引入并研究了确定性偏微分方程的置信区间(CI)估计作为一个新的问题,即以CI的形式从数据位置向整个区域传播置信度,并带有概率保证。
效果:我们提出了一种基于双层优化的方法,称为物理信息置信传播(PICProp),用于在不做强假设的情况下计算有效的CI。我们提供了一个关于我们方法有效性的定理,并在关注物理信息学习的计算实验中进行了验证。代码可在https://github.com/ShenQianli/PICProp获取。
Riemannian SAM: Sharpness-Aware Minimization on Riemannian Manifolds
Jihun Yun Eunho Yang
研究问题:优化算法在训练几何深度学习模型方面仍然是一个未充分探索的领域。
动机:当前深度学习领域的进步已经开始探索数据的基本几何性质,因此鼓励了对考虑一般流形(如双曲或正交神经网络)的技术的研究。
方法:本文通过将传统的欧几里得SAM推广到黎曼流形上,引入了黎曼SAM。我们成功地在黎曼流形上形成了锐度感知最小化,导致了一个新颖的实例,洛伦兹SAM。此外,以前研究中提出的SAM变体,如费舍尔SAM,可以作为我们黎曼SAM框架下的特殊例子推导出来。
效果:我们的分析为包括各种流形在内的理论提供了可靠的贡献,也为费舍尔SAM等SAM变体的收敛分析提供了保证,这些变体的收敛分析是缺失的。最后,我们通过知识图谱补全和机器翻译任务的实验,说明了黎曼SAM在泛化方面优于以前的黎曼优化算法。
Analysis of Variance of Multiple Causal Networks
Zhongli Jiang Dabao Zhang
研究问题:构建有向循环图(DCG)面临算法难度和计算负担的挑战,比较多个DCGs更为困难。
动机:我们提出了一个统一的结构模型来统一多个DCGs,并开发了一种基于有限信息的方法来同时构建多个网络并推断它们的不同之处。
方法:该方法设计了两个连续的阶段,每个阶段都包含可扩展至网络复杂性的并行计算任务。利用高性能集群,我们的方法使得使用自助法评估DCGs的统计显著性成为可能。
效果:通过在合成和真实数据集上的应用,我们展示了该方法的有效性。
Undirected Probabilistic Model for Tensor Decomposition
Zerui Tao Toshihisa Tanaka Qibin Zhao
研究问题:如何有效地从真实世界的数据中学习信息,而无需预先设定结构或分布假设。
动机:传统的张量分解方法需要预先设定数据的结构或分布假设,这在实际应用中往往是不可用的。
方法:本文提出了一种灵活的张量分解框架,通过深度能量模型(EBM)和神经网络来学习数据的底层结构和分布,并通过设计能量函数统一了不同类型的张量(如静态张量和带有时间戳的动态张量)的学习过程。
效果:实验结果表明,该方法在合成数据和多个真实世界数据集上都表现出优势。
Differentiable and Stable Long-Range Tracking of Multiple Posterior Modes
Ali Younis Erik B. Sudderth
研究问题:本文旨在解决粒子滤波器在高维观测如图像中的应用问题,以及现有重参数化估计器的混合梯度问题。
动机:传统的粒子滤波器在已知动态和观察可能性的跟踪问题上表现良好,但在高维观测如图像上的应用受限,且现有的生成模型可能不准确或不可用。
方法:通过深度神经网络编码器,利用训练数据对潜在对象状态的不确定性进行判别性学习,以任意观察为条件,实现粒子基表示。同时,通过重要性采样梯度估计器解决了现有重参数化估计器的混合梯度问题。
效果:在一系列具有挑战性的跟踪和机器人定位问题上,该方法显著提高了准确性和稳定性,并在多次训练运行中表现出更大的稳定性。
What is Flagged in Uncertainty Quantification? Latent Density Models for Uncertainty Categorization
Hao Sun Boris van Breugel Jonathan Crabbé Nabeel Seedat Mihaela van der Schaar
研究问题:如何对由不确定性量化(UQ)方法标记的不确定示例进行分类。
动机:尽管近年来出现了许多可以标记可疑示例的UQ方法,但往往不清楚这些方法具体识别了什么。
方法:提出了一个框架,通过引入混淆密度矩阵来对由给定的不确定性方法识别出的可疑示例进行分类,将其分为分布外(OOD)示例、边界(Bnd)示例和高分布内误分类(IDM)区域中的示例三类。
效果:通过大量实验表明,该框架为评估不确定性量化方法之间的差异提供了一种新的、独特的视角,从而形成了有价值的评估基准。
Fair Streaming Principal Component Analysis: Statistical and Algorithmic Viewpoint
Junghyun Lee Hanseul Cho Se-Young Yun Chulhee Yun
研究问题:本文旨在解决公平主成分分析(PCA)的问题,即在执行PCA的同时,使结果表示在敏感属性条件下的投影分布彼此匹配。
动机:现有的公平PCA方法存在两个主要问题:理论上,公平PCA的学习性没有统计基础;实践上,由于现有方法需要完全访问整个数据,而内存限制使得我们无法使用它们。
方法:提出了一个框架,通过引入混淆密度矩阵来对由给定的不确定性方法识别出的可疑示例进行分类,将其分为分布外(OOD)示例、边界(Bnd)示例和高分布内误分类(IDM)区域中的示例三类。
效果:通过大量实验表明,该框架为评估不确定性量化方法之间的差异提供了一种新的、独特的视角,从而形成了有价值的评估基准。
Estimating Propensity for Causality-based Recommendation without Exposure Data
Zhongzhou Liu Yuan Fang Min Wu
研究问题:现有的基于因果关系的推荐系统需要额外的曝光数据和倾向性分数(即曝光的概率)进行训练,但在现实世界中,由于技术或隐私限制,这些关键数据往往无法获取。
动机:为了解决这个问题,本文提出了一个新的框架——基于倾向性估计的因果关系推荐(PropCare)。
方法:PropCare通过关联倾向性和项目流行度的成对特征,仅使用传统的交互数据就可以估计倾向性和曝光,无需在训练和推理中使用任何曝光或倾向性的地面真值。
效果:实验结果表明,PropCare能够实现竞争性的基于因果关系的推荐,同时我们还对其模型估计的因果效应偏差进行了理论分析。
Optimal Transport for Treatment Effect Estimation
Hao Wang Jiajun Fan Zhichao Chen Haoxuan Li Weiming Liu Tianqiao Liu Quanyu Dai Yichao Wang Zhenhua Dong Ruiming Tang
研究问题:从观察性数据中估计个体治疗效果具有挑战性,因为存在治疗选择偏差。
动机:目前的方法主要通过在潜在空间中对齐不同的治疗组来缓解这个问题,其核心是计算分布差异。然而,两个经常被忽视的问题可能会使这些方法无效。
方法:我们提出了整个空间反事实回归(ESCFR),这是一种基于因果关系的最优传输技术的新方法。具体来说,基于标准最优传输框架,我们提出了一种松弛的保质正则化器来解决MSE问题,并设计了一种接近实际结果的正则化器来处理UCE问题。
效果:大量的实验表明,ESCFR能准确估计分布差异,有效处理治疗选择偏差,并且显著优于现有的竞争对手。
Function Space Bayesian Pseudocoreset for Bayesian Neural Networks
Balhae Kim Hyungi Lee Juho Lee
研究问题:如何有效地构建贝叶斯伪核心集,以实现大规模数据集的可扩展贝叶斯推理。
动机:现有的贝叶斯伪核心集构造方法在高维参数空间中进行模型参数(权重)的匹配,存在可扩展性差和多模态问题等挑战。
方法:提出一种新的贝叶斯伪核心集构造方法,该方法在函数空间上操作,通过在函数空间上构建伪核心集后验变分近似并与全数据后验进行匹配。
效果:实验证明,该方法构建的贝叶斯伪核心集具有更强的不确定性量化能力和更好的鲁棒性,适用于各种模型架构。
Globally solving the Gromov-Wasserstein problem for point clouds in low dimensional Euclidean spaces
Martin Ryner Jan Kronqvist Johan Karlsson
研究问题:本文提出了一种计算低维空间中两组点之间Gromov-Wasserstein问题的框架,其中差异是平方欧几里得范数。
动机:Gromov-Wasserstein问题是最优传输问题的推广,可以找到尽可能保留成对距离的两组之间的分配。这可以用于量化两个形态或形状之间的相似性,这是AI和机器学习中的常见问题。
方法:通过将QAP重新定义为具有低维域的优化问题来解决此问题,利用该问题可以表示为具有低秩的凸二次优化问题这一事实。该方法具有良好的扩展性,并且可以用于找到具有数千个点的大规模问题的全局解决方案。
效果:我们在合成问题上比较了我们的方法与最先进的方法的计算复杂性,并将其应用于计算生物学中的一个特别感兴趣的近似对称问题。
Unbiased learning of deep generative models with structured discrete representations
Harry Bendekgey Gabriel Hope Erik B. Sudderth
研究问题:如何结合图形模型和深度学习架构,学习生成模型?
动机:图形模型具有结构和可解释性,深度学习具有处理高维数据的灵活性,但两者的结合存在优化挑战。
方法:提出新的算法来学习结构化变分自动编码器(SVAE),并首次展示了SVAE在数据缺失时通过引入离散潜在变量处理多模态不确定性的能力。
效果:通过梯度下降法使SVAE易于学习,同时证明其对不完整优化的鲁棒性。通过计算自然梯度而无需手动推导,可以更快地学习准确的图形模型参数,避免了先前工作中发现的偏见。这些优化创新使得SVAE能够与最先进的时间序列模型进行首次比较,其中SVAE在学习和表示结构化离散数据方面表现出竞争力。
Geometry-Informed Neural Operator for Large-Scale 3D PDEs
Zongyi Li Nikola Borislavov Kovachki Chris Choy Boyi Li Jean Kossaifi Shourya Prakash Otta Mohammad Amin Nabian Maximilian Stadler Christian Hundt Kamyar Azizzadenesheli Anima Anandkumar
研究问题:如何有效地学习大规模偏微分方程的解算子,特别是在几何形状变化的情况下。
动机:现有的方法在处理不规则网格和进行高效的傅立叶运算方面存在困难。
方法:提出了一种基于图形和傅立叶架构的神经算子——几何信息感知神经算子(GINO)。GINO使用输入形状的符号距离函数(SDF)表示和基于图神经网络的算子来学习解算子。图神经网络算子处理不规则网格,并将其转换为常规潜在网格,以便在潜在网格上高效地应用傅立叶神经算子。
效果:实验结果表明,GINO在预测汽车表面压力方面取得了显著的效果,其计算成本比优化的GPU基计算流体动力学(CFD)模拟器快26,000倍。同时,GINO在新的几何形状和边界条件组合测试中,其误差率比深度神经网络方法低四分之一。
An Information-Theoretic Evaluation of Generative Models in Learning Multi-modal Distributions
Mohammad Jalali Cheuk Ting Li Farzan Farnia
研究问题:如何评估生成模型在多模态分布中捕捉到的模式数量。
动机:现有的评估指标与分布中的模式数量之间的对应关系尚不明确,因此需要提出一种新的评估方法。
方法:提出了一种基于量子信息理论的Renyi Kernel熵(RKE)作为评估分数,用于测量生成样本中模式的数量。
效果:通过使用RKE分数对最新的生成模型进行广泛评估,发现尽管这些模型在模式多样性上有所提高,但它们仍无法完全捕捉真实数据的全部多样性。
On Convergence of Polynomial Approximations to the Gaussian Mixture Entropy
Caleb Dahlke Jason Pacheco
研究问题:本文旨在解决高斯混合模型(GMM)的不确定性量化问题,因为其熵的微分熵没有封闭形式。
动机:尽管高斯混合模型在机器学习中具有灵活性,可以作为密度的近似,但其不确定性量化仍然是一个挑战。
方法:本文从理论和实践的角度探讨了多项式逼近,特别是泰勒级数和勒让德级数,用于GMM的熵。我们提供了对Huber等人(2008)使用的广泛方法的新分析,并表明该系列在简单条件下会发散。受此发散性的启发,我们提供了一个新的泰勒级数,该级数被证明可以收敛到任何GMM的真实熵。我们还展示了一种选择中心的方法,使得该系列从下方向上收敛,从而为GMM的熵提供了一个下界。此外,我们还证明,正交多项式系列会产生更准确的多项式逼近。
效果:实验验证支持我们的理论结果,同时表明我们的方法在计算上与Huber等人的方法相当。我们还表明,在实际应用中,这些多项式逼近的使用(如Gershamn等人(2012)的非参数变分推断)依赖于方法在计算准确逼近时的收敛性。这项工作为现有方法提供了有用的分析,同时引入了一种得到坚实理论保证的支持的新近似方法。
Scaling Riemannian Diffusion Models
Aaron Lou Minkai Xu Adam Farris Stefano Ermon
研究问题:如何利用黎曼扩散模型在高维空间中进行有效的分布学习?
动机:黎曼扩散模型的几何复杂性使得其无法用封闭形式表达扩散转移项,导致性能下降和高维应用受限。
方法:通过重新审视近似方法并提出实用改进,特别是利用对称空间的计算优势,快速精确地计算相关量。
效果:在低维数据集上,该方法能显著提高性能并与其他技术竞争;在高维任务和非平凡流形(如量子色动力学中的SU(n)晶格)上,该方法能够扩展应用;在对比学习的超球体嵌入中,该方法能够解决表示塌陷问题,缩小理论与实践的差距。
Nearly Optimal VC-Dimension and Pseudo-Dimension Bounds for Deep Neural Network Derivatives
Yahong Yang Haizhao Yang Yang Xiang
研究问题:解决深度神经网络(DNNs)导数函数的Vapnik-Chervonenkis维度(VC-dimension)和伪维度估计问题。
动机:为深度学习模型提供误差估计,推动物理学信息机器学习模型和应用的发展,如生成模型、偏微分方程求解、算子学习、网络压缩、蒸馏、正则化等。
方法:通过大规模文本语料库和知识图谱训练增强的语言表示模型ERNIE,同时充分利用词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
BasisFormer: Attention-based Time Series Forecasting with Learnable and Interpretable Basis
Zelin Ni Hang Yu Shizhan Liu Jianguo Li Weiyao Lin
研究问题:如何同时满足提取特征和作为未来参考的功能,提高基于深度学习的时间序列预测模型的效果?
动机:当前最先进的方法在满足这两个要求上存在限制。
方法:提出BasisFormer,一种利用可学习和可解释的基础进行端到端时间序列预测的架构。该架构包括三个部分:通过自适应自我监督学习获取基础;设计Coef模块,通过双向交叉注意力计算时间序列与历史视图中基础的相似系数;最后,根据相似系数选择并整合未来视图中的基础,进行准确的未来预测。
效果:在六个数据集上的大量实验表明,BasisFormer在单变量和多变量预测任务上分别比先前最先进的方法提高了11.04%和15.78%。
Finite Population Regression Adjustment and Non-asymptotic Guarantees for Treatment Effect Estimation
Mehrdad Ghadiri David Arbour Tung Mai Cameron N Musco Anup Rao
研究问题:本文旨在研究在有限总体中进行随机实验的回归调整方法,以解决估计样本均值、个体治疗效果和平均治疗效果的问题。
动机:目前的统计方法主要关注于整个人口都参与实验的情况,而在实践中,为了伦理和实用原因,研究者通常希望尽量减少受试者的数量。
方法:本文提出了利用随机数值线性代数技术从总体中抽取一部分进行实验的方法,并给出了非渐进准确性界限。
效果:实验结果表明,该方法与现有方法相比具有较好的性能。
Neural Ideal Large Eddy Simulation: Modeling Turbulence with Neural Stochastic Differential Equations
Anudhyan Boral Zhong Yi Wan Leonardo Zepeda-Nunez James Lottes Qing Wang Yi-Fan Chen John Roberts Anderson Fei Sha
研究问题:如何有效地结合理想大涡模拟和神经随机微分方程进行数据驱动学习。
动机:理想大涡模拟可以模型化湍流封闭,但无法解析求解;神经随机微分方程可以进行随机建模,但需要处理确定性实现的问题。
方法:使用潜在神经随机微分方程来模拟随机过程的演变,并使用编码器-解码器对在潜在空间和期望的理想流场之间进行转换。
效果:该方法在两个具有挑战性的混沌动力系统上表现出了有效性,能够无缝处理非均匀几何形状,并且相比于竞争方法,其生成的轨迹具有更准确的统计数据和更强的稳定性。
Adaptive Linear Estimating Equations
Mufang Ying Koulik Khamaru Cun-Hui Zhang
研究问题:本文旨在解决序贯数据收集在提高数据收集效率的同时,给统计推断过程带来的复杂性问题。
动机:尽管序贯数据收集具有许多优点,但其常常使统计推断过程变得复杂,例如在自适应线性回归模型中,普通最小二乘法(OLS)估计量可能表现出非正态的渐近行为,这对准确推理和解释构成了挑战。
方法:本文提出了一种通用的方法来构建消除偏误的估计量,该方法利用了自适应线性估计方程的思想,并建立了渐近正态性的保证,同时讨论了如何实现接近最优的渐近方差。
效果:该方法在两个具有挑战性的混沌动力系统上表现出了有效性,能够无缝处理非均匀几何形状,并且相比于竞争方法,其生成的轨迹具有更准确的统计数据和更强的稳定性。
Score-based Source Separation with Applications to Digital Communication Signals
Tejas Jayashankar Gary C.F. Lee Alejandro Lancho Amir Weiss Yury Polyanskiy Gregory Wornell
研究问题:提出一种新的方法,通过基于扩散的生成模型分离叠加源。
动机:该方法主要应用于无线电频率(RF)系统,对具有离散性质的底层源以及从关注信号中恢复编码比特感兴趣,以比特错误率(BER)进行衡量。
方法:该方法仅依赖于分别训练的独立源的统计先验,通过最大后验估计和α-后验建立新的客观函数,并在多个高斯平滑级别上进行。
效果:实验结果表明,该方法在RF混合物上实现了比经典和现有学习型方法更高的BER降低95%。分析表明,该方法的解决方案渐近地接近底层离散分布的模式。此外,该方法可以看作是最近提出的得分蒸馏采样方案的多源扩展,为其超越条件采样的使用提供了额外的启示。项目网页可在https://alpha-rgs.github.io查看。
Generalized Belief Transport
Junqi Wang PEI WANG Patrick Shafto
研究问题:如何理解学习模型之间的关系,以构建能够在不同的学习模式之间切换的智能体。
动机:现有的学习模型通常被单独考虑,而不是相互关联。为了建立能够在不同学习模式之间切换的智能体,理解学习模型之间的关系至关重要。
方法:引入了一个数学框架——广义信念传输(GBT),将贝叶斯推理、合作通信和分类等现有模型统一起来,并将其视为未平衡最优传输(UOT)中的三个学习约束的参数化。
效果:通过GBT可视化学习模型的空间,并证明其连续性和可微性,为模型插值奠定了基础。此外,还研究了GBT的极限行为,探索了模型在GBT中的收敛性质,证明了其在分布漂移存在下的学习能力,并提出了关于一般行为的猜想。最后,提出了开放的问题和对更统一的学习模型的启示。
Sequential Predictive Two-Sample and Independence Testing
Aleksandr Podkopaev Aaditya Ramdas
研究问题:本文研究了顺序非参数两样本和独立性测试的问题。
动机:现有的顺序测试方法在处理高维或结构化数据时,如图像,选择合适的核函数往往是困难的。
方法:本文设计了一种基于预测的下注策略,该策略依赖于一个事实:如果一个顺序更新的预测器开始一致地确定(a)一个实例是从哪个分布中抽取的,或者(b)一个实例是从联合分布还是从边际分布的乘积中抽取的(后者由外部随机化产生),它就分别提供了反对两个样本或独立性假设的证据。
效果:实验结果表明,在结构化设置下,我们的测试优于基于核的方法。即使在数据分布随时间漂移的情况下,我们的测试也可以应用,保持有效和强大。
Estimating Noise Correlations Across Continuous Conditions With Wishart Processes
Amin Nejatbakhsh Isabel Garon Alex H Williams
研究问题:如何准确估计神经网络群体的噪声协方差,特别是在试验条件有限的情况下。
动机:现有的噪声协方差估计方法需要大量的刻板试验,且在自然行为和感官体验中的表现不佳。
方法:利用许多实验中的条件平滑参数化特性,采用Wishart过程模型将相邻条件的试验统计能力进行整合。
效果:该方法在老鼠视觉皮层和猴子运动皮层的实验数据上表现良好,能产生随刺激参数变化的平滑协方差估计,并能对未见过的条件进行噪声相关性的估计,以及连续的 Fisher 信息估计。这为理解噪声在复杂神经计算和行为中的作用铺平了道路。
Uncertainty-Aware Instance Reweighting for Off-Policy Learning
Xiaoying Zhang Junpu Chen Hongning Wang Hong Xie Yang Liu John C.S. Lui Hang Li
研究问题:本文旨在解决现有离线学习中对日志策略估计的偏差和方差问题,以及由此产生的负面影响。
动机:在许多现实世界的应用中,如搜索引擎和推荐系统,离线学习的重要性已经显现出来。然而,由于地面实况日志策略通常是未知的,以往的工作只是简单地使用其估计值进行离线学习,忽视了这种估计器带来的高偏差和高方差的影响。
方法:本文提出了一种不确定性感知逆倾向得分估计器(UIPS),以显式地模拟估计日志策略中的不确定性,并提高离线学习的质量。
效果:实验结果在合成和现实世界的推荐数据集上表明,当与一系列先进的基线进行比较时,UIPS显著提高了发现的策略的质量。
DynGFN: Towards Bayesian Inference of Gene Regulatory Networks with GFlowNets
Lazar Atanackovic Alexander Tong BO WANG Leo J Lee Yoshua Bengio Jason Hartford
研究问题:细胞生物学的一个重大挑战是推断基因调控网络(GRN),该网络描述了控制基因表达和细胞功能的基因及其产物之间的相互作用。
动机:由于调控网络本质上是循环的,并且观察结果存在显著的测量噪声,因此现有的方法要么专注于从动态中识别循环结构的挑战(1),要么专注于学习复杂的贝叶斯后验概率在有向无环图上的挑战(2),但都不能同时处理这两个挑战。
方法:本文利用RNA速度技术估计基因表达的“速度”,从而开发了一种可以同时解决这两个挑战的方法。由于我们可以获得速度信息,因此可以将贝叶斯结构学习问题视为稀疏识别动力系统的问题,通过时间捕获循环反馈环。
效果:我们利用生成流网络(GFlowNets)来估计可能的稀疏依赖关系的组合空间上的后验分布。我们的结果表明,与最先进的贝叶斯结构学习方法相比,该方法学习到的后验更好地封装了循环结构的分布。
Practical and Asymptotically Exact Conditional Sampling in Diffusion Models
Luhuan Wu Brian L. Trippe Christian A Naesseth David Blei John Patrick Cunningham
研究问题:扩散模型在一系列条件生成任务中取得了成功,但这些成就主要依赖于特定任务的条件训练或容易出错的启发式近似。理想的条件生成方法应该能够在不依赖特定任务训练的情况下为广泛的条件分布提供精确的样本。
动机:为了解决这个问题,研究者提出了扭曲扩散采样器(TDS),这是一种针对扩散模型的条件分布的序贯蒙特卡洛(SMC)算法。
方法:TDS的主要思想是使用扭曲这种享有良好计算效率的SMC技术来结合启发式近似,而不会损害渐近准确性。
效果:模拟和条件图像生成任务的结果显示,TDS提供了一种计算统计权衡,使用许多粒子可以得到更准确的近似,而且在具有最少两个粒子的情况下也能比启发式方法有更好的表现。在蛋白质设计的核心任务——模体脚手架任务中,使用TDS对黎曼扩散模型进行扩展,在基准测试案例上,TDS允许灵活的条件准则,并且通常优于最先进的条件训练模型。
OneNet: Enhancing Time Series Forecasting Models under Concept Drift by Online Ensembling
YiFan Zhang Qingsong Wen Xue Wang Weiqi Chen Liang Sun Zhang Zhang Liang Wang Rong Jin Tieniu Tan
研究问题:本文旨在解决时间序列预测模型的概念漂移问题,通过有效地基于流数据更新预测模型。
动机:许多算法被设计用于在线时间序列预测,一些利用跨变量依赖性,而其他则假设变量之间的独立性。鉴于每种数据假设在在线时间序列建模中都有其优点和缺点,我们提出了在线集成网络(OneNet)。
方法:OneNet动态更新并结合了两种模型,一种关注于对时间维度的依赖性进行建模,另一种则关注于交叉变量依赖性。我们的方法将基于强化学习的方法纳入传统的在线凸优化框架,允许以动态调整的权重对两种模型进行线性组合。
效果:实证结果表明,与最先进的方法相比,OneNet减少了超过50%的在线预测误差。
Exploring and Interacting with the Set of Good Sparse Generalized Additive Models
Chudi Zhong Zhi Chen Jiachang Liu Margo Seltzer Cynthia Rudin
研究问题:本文旨在解决机器学习模型与领域专家交互困难的问题,通过近似研究问题:本文旨在解决机器学习模型与领域专家交互困难的问题,通过近似和探索Rashomon集(即所有接近最优模型的集合)来提供给用户一个包含多样化模型的可搜索空间。
动机:传统的机器学习范式通常只产生单一的模型,这不利于模型与领域专家的交互。通过近似和探索Rashomon集,可以解决这个问题。
方法:我们提出了一种算法,用于有效地精确地近似稀疏广义可加模型的Rashomon集,使用这些椭圆体来近似许多不同支持集的Rashomon集。
效果:实验表明,近似的Rashomon集具有很高的准确性,并且在解决实际挑战(如研究模型类别的变量重要性、寻找满足用户指定约束条件的模型、研究形状函数的突然变化等)方面非常有效。
Conformal PID Control for Time Series Prediction
Anastasios Nikolas Angelopoulos Emmanuel Candes Ryan Tibshirani
研究问题:时间序列预测的不确定性量化,目标是提供具有形式保证的易用算法。
动机:现有的在线预测方法无法适应季节性、趋势和一般分布偏移等系统性误差。
方法:基于共轭预测和控制理论的思想,构建了能够在在线环境中前瞻建模共轭分数的算法。
效果:在对美国4周内新冠死亡人数预测的实验中,该算法的覆盖率超过了美国疾病控制与预防中心使用的集成预测器。同时,在预测电力需求、市场回报和温度等方面也取得了良好的效果。
Training neural operators to preserve invariant measures of chaotic attractors
Ruoxi Jiang Peter Y. Lu Elena Orlova Rebecca Willett
研究问题:本文旨在解决混沌系统长程预测困难的问题,即初始条件的微小扰动会导致轨迹以指数速度发散。
动机:目前的神经网络操作符在最小化平方误差损失方面虽然能够进行准确的短期预测,但在长期时间跨度上无法复制动态的统计或结构属性,可能导致退化的结果。
方法:本文提出了一种替代框架,用于保留混沌吸引子的不变测度,这些测度描述了动态的时间不变统计特性。具体来说,在多环境设置中(每个样本轨迹由略有不同的动力学控制),我们考虑了两种使用噪声数据进行训练的新方法。第一种方法是提出一个基于观测动力学和神经网络操作符输出之间的最优传输距离的损失函数。这种方法需要专家知识来确定最优传输损失中应包含哪些统计特征。第二种方法则展示了一种对比学习框架,无需任何专门的先验知识,几乎能与最优传输方法一样保留动态的统计特性。
效果:在多种混沌系统上,我们的方法被实证证明能够保留混沌吸引子的不变测度。
Gaussian Process Probes (GPP) for Uncertainty-Aware Probing
Zi Wang Alexander Ku Jason Michael Baldridge Thomas L. Griffiths Been Kim
研究问题:如何理解和评估模型对概念的表示能力,包括其能否表示某些概念以及对这些概念的确定性程度。
动机:理解模型对概念的表示能力是许多任务的基础,包括有效和负责任地使用模型以及检测分布外数据。
方法:介绍了高斯过程探针(GPP),这是一种统一且简单的框架,用于探测和测量模型表示的概念的不确定性。作为线性探针方法的贝叶斯扩展,GPP询问模型诱导了哪种分类器(概念)的分布。这种分布可以用于测量模型表示的内容以及探针对这些内容的确定性程度。
效果:实验表明,GPP可以在只有少量示例的情况下探测模型的概念表示,准确测量认识不确定性(探针的确定性)和偶然不确定性(模型对概念的模糊程度),并使用这些不确定性测量以及经典方法来检测分布外数据。通过使用高斯过程扩展探针的功能,GPP提供了一种数据高效、多功能和具有不确定性意识的工具,用于理解和评估机器学习模型的能力。
GAUCHE: A Library for Gaussian Processes in Chemistry
Ryan-Rhys Griffiths Leo Klarner Henry Moss Aditya Ravuri Sang T. Truong Yuanqi Du Samuel Don Stanton Gary Tom Bojana Ranković Arian Rokkum Jamasb Aryan Deshwal Julius Schwartz Austin Tripp Gregory Kell Simon Frieder Anthony Bourached Alex James Chan Jacob Moss Chengzhi Guo Johannes P. Dürholt Saudamini Chaurasia Ji Won Park Felix Strieth-Kalthoff Alpha Lee Bingqing Cheng Alan Aspuru-Guzik Philippe Schwaller Jian Tang
研究问题:本文旨在开发一个用于化学中高斯过程的开源库GAUCHE。
动机:高斯过程是概率机器学习的基石,对于不确定性量化和贝叶斯优化具有特殊优势。然而,将其扩展到分子表示需要定义在结构化输入(如图形、字符串和位向量)上的内核。
方法:通过在一个模块化、稳健且易于使用的框架中提供这样的内核,我们希望使专家化学家和材料科学家能够利用最先进的黑箱优化技术。
效果:受实践中常见场景的启发,我们在分子发现、化学反应优化和蛋白质设计中展示了GAUCHE的应用。代码库可在https://github.com/leojklarner/gauche获取。
Learning Nonparametric Latent Causal Graphs with Unknown Interventions
Yibo Jiang Bryon Aragam
研究问题:如何从未知的干预中重建潜在因果图,并在没有线性或高斯等参数假设的情况下识别测量模型的潜在结构。
动机:扩展了从观察和干预中学习因果表示的最新研究,提出了一种新的方法来处理未知的干预和潜在的非参数结构。
方法:通过引入两个新的图形概念——"虚子集"和"孤立边",建立了在潜在空间中从未知的干预中重建潜在因果图的条件。
效果:首次在一般设置中,无需任何参数假设、无需忠实性,就能确定因果表示的条件,并扩展了对潜在结构的认识。
Contextual Gaussian Process Bandits with Neural Networks
Haoting Zhang Jinghai He Rhonda Righter Zuo-Jun Shen Zeyu Zheng
研究问题:如何选择合适的代理模型来捕捉未知的复杂奖励函数,以解决在线内容推荐、个性化医疗和自动驾驶等领域的上下文决策问题。
动机:在实际应用中,既需要高近似精度,又需要明确的不确定性量化。
方法:提出一种神经网络伴随的高斯过程(NN-AGP)模型,利用神经网络对上下文变量进行未知且可能复杂的奖励函数近似,同时保持高斯过程对决策变量的代理模型。
效果:实验证明,由于使用了神经网络,该模型具有更好的近似精度,并且由于使用高斯过程,该模型具有明确的不确定性量化,从而优于现有方法。
Bayesian Metric Learning for Uncertainty Quantification in Image Retrieval
Frederik Rahbæk Warburg Marco Miani Silas Brack Søren Hauberg
研究问题:提出一种贝叶斯编码器用于度量学习。
动机:不依赖先前工作的神经模拟,而是通过拉普拉斯近似来学习网络权重的分布。
方法:首先证明对比损失是球面空间上的负对数似然,然后提出三种确保正定协方差矩阵的方法,最后提出广义高斯-牛顿逼近的新分解方法。
效果:实验表明,我们的拉普拉斯度量学习器(LAM)能产生良好校准的不确定性,可靠地检测出分布外的例子,并具有最先进的预测性能。
The s-value: evaluating stability with respect to distributional shifts
Suyash Gupta Dominik Rothenhaeusler
研究问题:如何量化统计参数的分布不稳定性,特别是在不同地点和时间下分布的变化?
动机:传统的不确定性统计量如$p$-值和置信区间主要考虑了采样带来的不确定性,但在实际中,分布的变化也是一个重要的不确定性来源。
方法:提出一种新的稳定性测量方法,通过计算统计参数相对于Kullback-Leibler散度的敏感性,即参数在Kullback-Leibler散度球内的一般分布扰动下的敏感性,来量化分布不稳定性。同时,还对参数进行方向性或变量特异性偏移的稳定性进行了量化。
效果:实验结果表明,该方法能够有效地揭示参数在某些特定偏移下的分布不稳定性,并有助于提高在偏移分布下统计参数估计的准确性。
End-To-End Latent Variational Diffusion Models for Inverse Problems in High Energy Physics
Alexander Shmakov Kevin Greif Michael James Fenton Aishik Ghosh Pierre Baldi Daniel Whiteson
研究问题:本文旨在解决在大型强子对撞机(LHC)中,如何通过深度生成学习方法近似解决探测器观测到的反问题。
动机:目前的粒子物理分析需要将测量结果与理论预测或其他检测器的结果进行比较,但必须首先校正探测器效应。
方法:我们引入了一种新颖的统一架构,称为潜在变分扩散模型,该模型结合了最新的生成艺术方法的潜在学习与端到端变分框架。
效果:我们的统一方法在重建理论运动量的全局分布以及确保学习的后验分布符合已知的物理约束方面表现出色,其距离真实的无分布误差比非潜在状态-of-the-art基线小20倍以上,比传统的潜在扩散模型小3倍。
Temporally Disentangled Representation Learning under Unknown Nonstationarity
Xiangchen Song Weiran Yao Yewen Fan Xinshuai Dong Guangyi Chen Juan Carlos Niebles Eric Xing Kun Zhang
研究问题:在非平稳环境下,如何从观测到的时序数据中恢复和识别具有时间延迟的潜在因果关系。
动机:现有的方法要么需要借助辅助变量(如类别标签和/或领域索引),要么假设简化的潜在因果动态,限制了其应用范围。
方法:本研究进一步探讨了非平稳环境下时间延迟的因果相关过程中的马尔可夫假设,并表明在温和条件下,无需观察辅助变量,就可以从非线性混合中恢复独立的潜变量,最多进行置换和逐分量变换。然后引入了NCTRL,一个原则性估计框架,用于重建时间延迟的潜在因果变量并仅从测量的时序数据中识别它们的关系。
效果:实证评估表明,该方法能够可靠地识别时间延迟的潜在因果关系,显著优于未能充分利用非平稳性的现有基线方法,因此无法区分分布偏移。
Embracing the chaos: analysis and diagnosis of numerical instability in variational flows
Zuheng Xu Trevor Campbell
研究问题:本文探讨数值不稳定性对变分流中采样、密度评估和证据下界(ELBO)估计的可靠性的影响。
动机:我们发现常见的变分流会出现数值累积误差,影响采样、密度和ELBO计算的准确性,但令人惊讶的是,其结果在应用上却常常足够准确。
方法:我们将变分流视为混沌动力系统,利用阴影理论通过理论上的保证来阐明这种行为,并开发了一种诊断程序以验证实践中由数值不稳定的流产生的结果。
效果:我们的理论分析和实验结果表明,尽管存在严重的数值不稳定性,但变分流的结果在实践中仍然足够准确。
Intervention Generalization: A View from Factor Graph Models
Gecia Bravo-Hermsdorff David Watson Jialin Yu Jakob Zeitler Ricardo Silva
研究问题:如何从过去的实验和观察数据推广到新的条件,特别是在处理可能的干预措施的大组合空间时。
动机:在稀疏的实验设计下,没有对分布的强大正则化或先验分布,这种映射可能是不适定的。
方法:通过因子图模型的语言,提出了一个干预因子模型(IFM),可以有效地抽象出未测量的混淆和反馈机制,从而得到可直接测试的声明。
效果:通过一系列半合成实验,实现了该框架,并得到了预期结果的新条件。
Mirror Diffusion Models for Constrained and Watermarked Generation
Guan-Horng Liu Tianrong Chen Evangelos Theodorou Molei Tao
研究问题:如何使扩散模型在受限的数据集中保持可处理性?
动机:现有的扩散模型在标准欧几里得空间中表现良好,但在受限的数据集上可能会失去其特性。
方法:提出Mirror Diffusion Models(MDM),通过在镜像映射的对偶空间中学习扩散过程,以生成凸约束集上的数据,同时保持可处理性。
效果:实验证明,MDM在常见约束集(如单纯形和L2球)上的运行效率和性能都优于现有方法,且可以用于安全和隐私保护的信息嵌入。
Meek Separators and Their Applications in Targeted Causal Discovery
Kirankumar Shiragur Jiaqi Zhang Caroline Uhler
研究问题:如何从干预性数据中学习因果关系结构,特别是在只需要学习部分因果图的情况下。
动机:许多先前的研究都集中在恢复整个因果图上,但在实践中,只需要学习部分因果图的场景更为常见。
方法:提出了“Meek分隔符”的概念,这是一种当进行干预时,可以将未定向的剩余边分解为更小的连通分量的顶点子集。并设计了寻找小型Meek分隔符的高效算法。
效果:提出了两种随机化算法,分别实现了子集搜索和因果匹配问题的对数近似解,这是首次为这两个问题提供了平均情况的可证明保证。
Causal Imitability Under Context-Specific Independence Relations
Fateme Jamshidi Sina Akbari Negar Kiyavash
研究问题:忽视因果关系执行模仿学习的缺点已被广泛认识,但关于潜在的好处和如何利用额外的底层结构信息尚未被探索。
动机:本文考虑了已知上下文特定独立性(CSI)关系时的因果模仿学习问题。
方法:我们证明了在此设置中关于模仿可行性的决策问题是NP-hard的,并提供了在CSI下的模仿学习的必要的图形标准。
效果:最后,我们提出了一种合理的算法方法来处理考虑CSI关系和数据的因果模仿学习。
Identifiability Guarantees for Causal Disentanglement from Soft Interventions
Jiaqi Zhang Kristjan Greenewald Chandler Squires Akash Srivastava Karthikeyan Shanmugam Caroline Uhler
研究问题:本文旨在解决在有未观察的因果变量的情况下,如何通过一个广义的忠实性概念实现因果模型的识别。
动机:当因果变量完全被观察时,已有算法可以在忠实性假设下识别因果模型。本文旨在证明,即使在未观察到因果变量的情况下,也可以实现因果模型的识别。
方法:本文提出了一种自编码变分贝叶斯算法来实现因果解缠框架,并将其应用于预测基因组中的组合扰动效应的问题。
效果:实验结果表明,该方法可以恢复潜在的因果模型,并预测无限数据中未见过的组合干预的效果。
Time Series as Images: Vision Transformer for Irregularly Sampled Time Series
Zekun Li Shiyang Li Xifeng Yan
研究问题:如何有效地处理不规则采样的时间序列,特别是在医疗领域。
动机:虽然已经开发了各种专门的方法来处理这些不规则性,但有效模拟其复杂动态和显著稀疏性仍然是一个挑战。
方法:将不规则采样的时间序列转换为线图图像,然后利用强大的预训练视觉转换器进行时间序列分类,就像图像分类一样。这种方法不仅大大简化了专门的算法设计,而且有可能成为时间序列建模的通用框架。
效果:尽管方法简单,但在几个流行的健康保健和人类活动数据集上,该方法优于最先进的专门算法。特别是在严格的传感器剔除设置中,测试期间会省略一部分变量,该方法对不同程度的缺失观测表现出强大的鲁棒性,即使在一半的变量被屏蔽的情况下,也比领先的专门基线在绝对F1分数上提高了42.8%。代码和数据可在https://github.com/Leezekun/ViTST获取。
Explaining Predictive Uncertainty with Information Theoretic Shapley Values
David Watson Joshua O'Hara Niek Tax Richard Mudd Ido Guy
研究问题:当前,解释复杂监督学习模型的预测结果的方法已经相当成熟,但模型输出的不确定性的解释却相对较少。
动机:为了解决这个问题,研究人员将广受欢迎的沙普利值框架进行调整,以解释各种类型的预测不确定性,并对每个特征对个体模型输出的条件熵的贡献进行量化。
方法:通过修改特性函数来考虑游戏,发现由此产生的沙普利值与信息理论和条件独立性测试的基本数量之间有深层次的联系。同时,还概述了有限样本错误率控制的推理过程,并实现了在真实数据和模拟数据上表现良好的高效算法。
效果:该方法可以应用于协变量偏移检测、主动学习、特征选择和主动特征值获取等多个领域,并在实验中取得了良好的效果。
Energy Discrepancies: A Score-Independent Loss for Energy-Based Models
Tobias Schröder Zijing Ou Jen Ning Lim Yingzhen Li Sebastian Josef Vollmer Andrew Duncan
研究问题:提出一种新的损失函数,称为能量差异(ED),以解决基于能量的模型训练计算负担重的问题。
动机:现有的基于能量的模型虽然强大但计算负担重,限制了其广泛应用。
方法:提出了一种名为能量差异(ED)的新型损失函数,避免了昂贵的马尔科夫链蒙特卡罗计算,并通过数值实验证明其比显式得分匹配或对比散度更快更准确地学习低维数据分布。
效果:通过数值实验,证明了ED在高维图像数据上的效果,并展示了将基于能量的模型作为变分解码器模型的先验进行训练的有效性。
Deep Stochastic Processes via Functional Markov Transition Operators
Jin Xu Emilien Dupont Kaspar Märtens Tom Rainforth Yee Whye Teh
研究问题:本文提出了一种新的随机过程——马尔科夫神经过程(MNPs),用于增强原始神经过程(NPs)的灵活性和表达能力。
动机:现有的神经过程在处理复杂任务时可能存在限制,因此需要一种新方法来提高其灵活性和表达能力。
方法:通过在函数空间中堆叠神经参数化的马尔科夫转移操作符序列,构建了马尔科夫神经过程。这种马尔科夫转移操作符能够保持随机过程的交换性和一致性。
效果:实验结果表明,马尔科夫神经过程在各种任务上明显优于基线模型。
Thin and deep Gaussian processes
Daniel Augusto de Souza Alexander V Nikitin S. T. John Magnus Ross Mauricio A Álvarez Marc Peter Deisenroth João Paulo Pordeus Gomes Diego Mesquita César Lincoln Mattos
研究问题:如何有效地利用高斯过程进行不确定性量化,并选择合适的核函数。
动机:手动选择和设计核函数在高斯过程中是具有挑战性的,而深度学习高斯过程(Deep GPs)虽然可以避免手动进行核函数工程,但可能会失去浅层高斯过程的可解释性。
方法:本文提出了一种新的方法——薄而深的高斯过程(TDGP)。每个TDGP层对原始输入数据进行局部线性变换,同时保持潜在嵌入的概念和内核长度尺度的解释性。此外,与先前的解决方案不同,TDGP诱导了非病态的流形,可以学习更低维的表示。
效果:理论和实验结果表明,i) TDGP与以往模型不同,专门用于发现输入数据的低维流形,ii) 随着层数的增加,TDGP表现良好,iii) TDGP在标准基准数据集上表现良好。
On the Generalization Properties of Diffusion Models
Puheng Li Zhong Li Huishuai Zhang Jiang Bian
研究问题:本文旨在对扩散模型的泛化能力进行深入的理论探索。
动机:尽管扩散模型在实际应用中取得了显著的成功,但其泛化能力的理论理解仍然不足。
方法:通过建立理论估计,研究了基于分数的扩散模型的训练动态与泛化差距之间的关系。
效果:研究发现,当提前停止训练时,扩散模型具有多项式小的泛化误差(O(n^{-2/5}+m^{-4/5})),并且这种泛化误差不会受到数据维度的影响。此外,当目标分布被描绘为一系列密度时,这些估计也揭示了“模式转移”对模型泛化的负面影响。这些发现不仅有助于深化对扩散模型泛化属性的理解,也为实际应用提供了指导。
An Efficient Doubly-Robust Test for the Kernel Treatment Effect
Diego Martinez-Taboada Aaditya Ramdas Edward Kennedy
研究问题:如何准确度量和测试二元处理中治疗的分布效应。
动机:当前最流行的目标效果是期望差异的平均处理效应,但治疗可能会产生超出均值的效果,如降低或增加方差。
方法:提出了一种新的基于内核的测试来检测治疗的分布效应,这是首个具有有效类型I错误的基于内核的双重稳健测试。
效果:该算法计算效率高,避免了排列的使用,并在实证研究中表现出良好的性能。
Swarm Reinforcement Learning for Adaptive Mesh Refinement
Niklas Freymuth Philipp Dahlinger Tobias Daniel Würth Simon Reisch Luise Kärger Gerhard Neumann
研究问题:如何有效地进行自适应网格细化(AMR)以提高有限元方法(FEM)的计算速度和模拟精度。
动机:传统的AMR方法依赖于特定任务的启发式方法或昂贵的误差估计器,限制了其在复杂模拟中的应用。
方法:将AMR建模为一种新型的自适应群体马尔可夫决策过程,其中网格被建模为一组可以分裂成多个新代理的简单协作代理系统。结合消息传递网络在相邻网格元素之间传播信息,并简化信用分配问题。
效果:实验验证了该方法的有效性,称为自适应群体网格细化(ASMR),在一系列具有挑战性的问题中学习到了可靠、可扩展和高效的细化策略。相比传统方法,该方法显著提高了计算速度,并在复杂模拟中实现了高达30倍的改进。此外,该方法还优于已学习的基线,达到了与传统基于误差的AMR策略相当的细化质量,而无需关于误差信号的昂贵oracle信息。
On the Statistical Consistency of Risk-Sensitive Bayesian Decision-Making
Prateek Jaiswal Harsha Honnappa Vinayak Rao
研究问题:本文旨在研究在贝叶斯框架下的数据驱动决策问题,其中贝叶斯风险的期望被替换为关于后验分布的风险敏感熵风险度量。
动机:在现代应用中,大型数据集和复杂的数据生成模型使得计算后验分布变得困难,因此需要一种新方法来解决这个问题。
方法:本文提出了一种新的风险敏感变分贝叶斯(RSVB)框架,用于联合计算风险敏感的后验近似值和相应的决策规则。该框架包括损失校准变分贝叶斯(Lacoste-Julien等人,2011年)作为特例。
效果:通过三个例子,本文展示了理论发现在参数和非参数设置中的应用,并计算了RSVB近似后验分布和相应最优值的收敛速度。
Representation Equivalent Neural Operators: a Framework for Alias-free Operator Learning
Francesca Bartolucci Emmanuel de Bezenac Bogdan Raonic Roberto Molinaro Siddhartha Mishra Rima Alaifari
研究问题:如何将无限维函数空间之间的映射进行学习,特别是在从数据中学习偏微分方程方面。
动机:尽管在理论上概念清晰,但在计算机实现时,神经网络算子需要进行离散化,这可能会损害其完整性,导致它们偏离底层算子。
方法:提出了一种名为“等效表示神经网络算子”(ReNO)的框架,以解决这些问题。核心是算子别名的概念,用于衡量神经网络算子与其离散表示之间的不一致性。
效果:研究发现,当处理不同的离散化和网格以及丧失关键的连续结构时,别名引入了误差。此外,由于其建设性和广泛性,该框架不仅揭示了现有挑战,还可能为开发新的神经网络算子提供工具。
Collapsed Inference for Bayesian Deep Learning
Zhe Zeng Guy Van den Broeck
研究问题:本文旨在解决贝叶斯神经网络的推理问题,即如何在保持预测性能的同时提高样本效率。
动机:当前的贝叶斯神经网络推理方法往往需要对网络权重进行采样,但这种方法要么计算成本过高,要么会损害预测性能。
方法:本文提出了一种新的塌陷推理方案,通过使用塌陷样本进行贝叶斯模型平均来改善蒙特卡洛样本。这种塌陷样本可以代表从近似后验分布中抽取的无数模型,从而提高样本效率。
效果:在各种回归和分类任务上,本文提出的塌陷贝叶斯深度学习方法在不确定性估计和预测性能方面均优于现有方法,并创造了新的最先进的状态。
Policy Optimization for Continuous Reinforcement Learning
Hanyang Zhao Wenpin Tang David Yao
研究问题:本文旨在研究连续时间和空间下的强化学习,以无限期折扣目标和由随机微分方程驱动的基本动态为基础。
动机:基于最近在连续强化学习方面的进展,作者开发了一种占用时间(特别是对于折扣目标)的概念,并展示了如何有效地利用它来导出性能差异和局部近似公式。
方法:作者进一步扩展了这些结果,以说明它们在PG(策略梯度)和TRPO/PPO(信任区域策略优化/接近策略优化)方法中的应用,这些方法在离散RL设置中已经熟悉且强大,但在连续RL中尚未充分发展。
效果:通过数值实验,作者证明了他们的方法的有效性和优势。
A Causal Framework for Decomposing Spurious Variations
Drago Plecko Elias Bareinboim
研究问题:如何解释特定事物发生的方式,或变量X如何影响变量Y的机制。
动机:在数据科学中,一个基本的挑战是理解为什么某些事情会以特定的方式发生,或者某个变量X如何影响另一个变量Y。
方法:开发了一种新的形式工具,用于分解马尔可夫模型和半马尔可夫模型中的虚假关联。
效果:证明了第一个允许非参数分解虚假效应的结果,并提供了识别这种分解的充分条件。这种方法在解释性和公平AI、流行病学和医学等领域有广泛的应用,并在真实世界数据集上进行了实证演示。
Towards Understanding the Dynamics of Gaussian-Stein Variational Gradient Descent
Tianle Liu Promit Ghosal Krishna Balasubramanian Natesh S. Pillai
研究问题:尽管SVGD已被广泛应用,但其理论性质的理解仍然是一个挑战。
动机:为了解决这一问题,我们详细地研究了高斯-SVGD,即通过双线性核投影到高斯分布族的SVGD,或等效的高斯变分推理(GVI)与SVGD。
方法:我们考虑了均值场偏微分方程和离散粒子系统,并提出了密度基础和粒子基础的高斯-SVGD实现。
效果:我们的结果显示,当目标具有强烈的对数凹性时,均值场高斯-SVGD动态将收敛到与目标在KL散度上最接近的高斯分布。在有限粒子设置中,如果目标为高斯分布,则时间和时间收敛到均值场极限以及时间收敛到平衡都是线性的。在一般情况下,我们提出了一种基于密度和基于粒子的高斯-SVGD实现,并发现几种最近从不同角度提出的GVI算法都是我们统一框架的特殊案例。有趣的是,这个框架中的一个新粒子实例在实践中表现优于现有方法。
Active Observing in Continuous-time Control
Samuel Holt Alihan Hüyük Mihaela van der Schaar
研究问题:如何有效地控制连续时间环境,同时积极决定何时进行昂贵的观察?
动机:现有的方法要么依赖于定期进行昂贵观察的连续时间控制方法,要么依赖于离散时间控制和昂贵的观察方法,但这些方法都不适合连续时间环境。
方法:我们首次将带有昂贵观察的连续时间控制问题形式化,并提出了一种新的方法,可以在连续时间控制中进行不规则的观察。
效果:我们在各种连续时间环境中进行了实证验证,包括一个癌症模拟。虽然确定最优方法仍然是一个开放的问题,但我们的工作为这个独特的问题提供了有价值的见解和理解,为未来在这个领域的研究奠定了基础。
Gaussian Differential Privacy on Riemannian Manifolds
Yangdi Jiang Xiaotian Chang Yi Liu Lei Ding Linglong Kong Bei Jiang
研究问题:如何将高斯差分隐私(GDP)扩展到一般黎曼流形上。
动机:由于其中心极限属性,GDP的概念作为显著的隐私定义,迫切需要扩展到流形设置中。
方法:利用著名的几何分析中的Bishop-Gromov定理,我们提出了一个整合了黎曼距离的黎曼高斯分布,使我们能够在具有有界Ricci曲率的黎曼流形上实现GDP。
效果:通过在统计中最常见的流形之一,单位球$S^d$上的模拟,我们证明了我们的黎曼高斯机制在实施GDP方面优于先前提出的黎曼拉普拉斯机制。
Deep Gaussian Markov Random Fields for Graph-Structured Dynamical Systems
Fiona Lippert Bart Kranstauber E. Emiel van Loon Patrick Forré
研究问题:高维状态空间模型的概率推理计算具有挑战性。
动机:对于许多时空系统,关于状态变量的依赖结构的知识是可用的。
方法:利用这种结构,开发了一种计算效率高的方法,用于具有(部分)未知动力学和有限历史数据的图结构状态空间模型的状态估计和学习。
效果:在线性高斯假设下,保留了一种封闭形式的后验,可以使用共轭梯度方法进行高效采样,与基于卡尔曼滤波器的经典方法相比具有良好的可扩展性。
Accelerating Motion Planning via Optimal Transport
An Thai Le Georgia Chalvatzaki Armin Biess Jan Peters
研究问题:运动规划在机器人、自动驾驶等领域仍是一个开放性的问题,因为需要大量的计算资源,阻碍了实时、有效的决策。
动机:现有的基于梯度的轨迹优化方法通常会遇到局部极小值的问题,而且在许多情况下可能由于无法轻易获取优化目标的梯度而不适用。
方法:我们提出了一种名为“运动规划通过最优传输”(MPOT)的方法,这是一种无梯度的方法,可以在高度非线性的成本下优化一批平滑的轨迹,即使对于高维任务也是如此。同时,通过规划即推理的视角,通过高斯过程动力学先验来强制平滑性。
效果:我们引入了一种创新的零阶和高度并行化的更新规则——辛克斯步骤,它使用正则多面体族作为其搜索方向。在一系列从低维质点导航到高维全身机器人运动规划的问题中,MPOT的效率表现出色,证明了其在各种问题上优于流行的运动规划器,为最优传输在运动规划中的应用开辟了新的道路。
Change point detection and inference in multivariate non-parametric models under mixing conditions
Carlos Misael Madrid Padilla Haotian Xu Daren Wang OSCAR HERNAN MADRID PADILLA Yi Yu
研究问题:本文旨在解决非参数多元时间序列中多个变化点的局部化和推断问题。
动机:在具有潜在短程依赖性的多元时间序列中,其底层分布可能随时间以分段常数的方式改变,而对应的变化点是未知的。
方法:我们提出了在最小跳跃大小消失或保持不变的情况下,变化点估计器的极限分布。这些结果在非参数变化点设置中尚未在文献中揭示。作为副产品,我们还开发了一个可以准确定位多元非参数时间序列中变化点的尖锐估计器,以及一个一致的块类型长程方差估计器。
效果:数值研究表明,我们的估计器具有良好的表现,并且提供了对理论发现的补充。
On the Identifiability of Sparse ICA without Assuming Non-Gaussianity
Ignavier Ng Yujia Zheng Xinshuai Dong Kun Zhang
研究问题:传统的独立成分分析(ICA)方法在处理高斯分布数据时,由于其旋转不变性,往往需要假设源数据的非高斯特性,这可能限制了其在更广泛情境中的应用。
动机:为了适应高斯源数据,我们开发了一种识别理论,该理论依赖于二阶统计量,而不对源数据的分布施加进一步的先决条件,通过引入关于从源到观察变量的连接结构的新颖假设。
方法:我们提出了两种基于二阶统计量和稀疏约束的估计方法。与最近的工作不同,我们的结构可变性假设既相当不具限制性,又经过证明是必要的。
效果:实验结果验证了我们的识别理论和估计方法的有效性。
Unbalanced Low-rank Optimal Transport Solvers
Meyer Scetbon Michal Klein Giovanni Palla marco cuturi
研究问题:最优传输方法在机器学习中的适用性长期以来一直受到两个显著限制的影响。
动机:首先,标准样本基求解器的计算成本(用于批量n个样本时)为O(n^3),这令人望而却步。其次,质量守恒约束使得OT求解器在实践中过于刚性:因为它们必须匹配来自两种度量的所有点,其输出可能受到异常值的严重影响。
方法:最近的许多OT工作已经解决了这些计算和建模的限制,但导致了两种分离的方法:虽然熵正则化大大提高了计算前景,但更近期的O(n)线性时间“低秩”求解器有望进一步扩展OT。另一方面,由于依赖于惩罚项而非强制实施质量守恒的不平衡OT变体的出现,建模刚性得到了缓解。
效果:本文的目标是融合这两种方法,实现通用/可扩展的不平衡/低秩OT求解器的承诺。我们提出了自定义算法来实现这些扩展对线性OT问题及其融合Gromov-Wasserstein泛化的应用,并展示了它们在具有挑战性的转录组学匹配问题中的实际相关性。
Differentiable Sampling of Categorical Distributions Using the CatLog-Derivative Trick
Lennert De Smet Emanuele Sansone Pedro Zuidberg Dos Martires
研究问题:如何有效地对离散潜在变量模型中的类别概率分布参数进行学习,特别是当涉及到独立类别分布的乘积时。
动机:现有的方法在处理类别概率分布的梯度估计时存在困难,需要通过引入新的技巧来解决这个问题。
方法:提出了CatLog-Derivative trick,这是一种针对类别分布的Log-Derivative trick的变体,并基于此提出了IndeCateR,这是一种用于独立类别分布乘积的无偏梯度估计器。
效果:实验证明,IndeCateR可以有效实现,并且其梯度估计与现有技术相比,具有更低的偏差和方差。
Generative Neural Fields by Mixtures of Neural Implicit Functions
Tackgeun You Mijeong Kim Jungtaek Kim Bohyung Han
研究问题:提出一种学习生成神经场的新方法,该方法由隐式基础网络的线性组合表示。
动机:通过元学习和自解码模式在潜在空间中学习基础网络和它们的系数,以扩大生成神经场的容量。
方法:增加基础网络的数量,同时通过加权模型平均保持推理网络的规模,从而有效地提高采样实例的效率。
效果:实验表明,该方法在图像、体素数据和NeRF场景等多种基准上实现了有竞争力的生成性能,无需为特定模态和领域进行复杂的设计。
Monte Carlo Tree Search with Boltzmann Exploration
Michael Painter Mohamed Baioumy Nick Hawes Bruno Lacerda
研究问题:如何提高蒙特卡洛树搜索(MCTS)方法在寻找最优行动时的效率和准确性?
动机:现有的MCTS方法,如UCT,在探索最优行动时可能会较慢。MENTS虽然通过最大熵原理鼓励更多的探索,但其最优行动并不总是对应于原始目标的最优行动。
方法:本文提出了Boltzmann Tree Search (BTS) 和 Decaying ENtropy Tree-Search (DENTS)两种算法,它们解决了MENTS的局限性,同时保留了Boltzmann策略的优点,如使用Alias方法使行动采样更快。
效果:实验分析表明,这两种算法在多个基准领域表现出一致的高性能,包括围棋游戏。
PETAL: Physics Emulation Through Averaged Linearizations for Solving Inverse Problems
Jihui Jin Etienne Ollivier Richard Touret Matthew McKinley Karim Sabra Justin Romberg
研究问题:如何通过已知的观察量恢复出感兴趣的底层信号。
动机:非线性前向模型的逆运算通常需要大量的计算,且当前的方法都是以黑箱监督机器学习的方式进行模拟器的训练,无法充分利用已有的前向模型知识。
方法:提出一种简单的学习加权平均模型,将前向模型在各个参考点处的线性化嵌入到模型本身中,明确地结合已知的物理知识。
效果:通过在海洋声学断层扫描(OAT)示例中的演示,证明了该方法能够更准确地恢复海洋声速剖面(SSP)的变化,提高了前向建模的准确性,并在反演过程中提供了更丰富的基于物理的梯度信息。
Amortized Reparametrization: Efficient and Scalable Variational Inference for Latent SDEs
Kevin Course Prasanth B. Nair
研究问题:解决隐式随机微分方程(SDEs)的推断问题,其时间和内存成本与数据量、时间序列的总长度和近似微分方程的硬度独立地成比例。
动机:与传统的隐式微分方程推断方法相比,尽管其内存成本恒定,但其时间复杂度严重依赖于近似微分方程的硬度。
方法:通过使用一种新的平均策略和最近推导的线性SDEs下期望的重参数化,消除了在近似梯度时需要解微分方程的需求。
效果:实践中,这种方法使我们能够在训练中以超过一个数量级的模型评估次数实现与基于伴随敏感性的方法相似的性能。
Learning Causal Models under Independent Changes
Sarah Mameche David Kaltenpoth Jilles Vreeken
研究问题:本文旨在解释多环境下系统的生成过程,其中系统组件可能会发生变化。
动机:目前的模型受限于稀疏机制转移假设,并且只有一部分因果条件会改变,而实际情况中这种假设不易验证。因此,我们研究了更一般的原理,即机制转移是独立的。
方法:我们引入了一种使用高斯过程模型进行因果发现的方法,该方法超越了部分有向图的限制,并给出了正确识别因果模型的条件。
效果:实验结果表明,我们的方法在一系列合成设置、现实的基因表达模拟以及真实的细胞信号数据上都表现良好。
Moment Matching Denoising Gibbs Sampling
Mingtian Zhang Alex Hawkins-Hooker Brooks Paige David Barber
研究问题:本研究旨在解决能量模型(EBMs)训练和采样的挑战,特别是针对常用的去噪得分匹配(DSM)方法的不一致性问题。
动机:现有的去噪得分匹配方法在训练能量模型时存在不一致性问题,导致学习到的数据分布噪声较大。
方法:我们提出了一种有效的采样框架——带矩匹配的(伪)吉布斯采样,该框架可以在给定通过DSM良好训练的噪声模型时,从底层的干净模型中进行有效采样。
效果:我们的方法在与相关方法的比较中表现出优势,并且可以扩展到高维数据集。
Equivariant Neural Simulators for Stochastic Spatiotemporal Dynamics
Koen Minartz Yoeri Poels Simon Martinus Koop Vlado Menkovski
研究问题:如何利用神经网络进行大规模数据驱动的高维动态系统模拟,特别是在数值方法不可行或计算成本高昂的情况下。
动机:在确定性神经网络模拟器中引入领域对称性可以显著提高其准确性、样本效率和参数效率。然而,要在能够模拟随机现象的概率神经网络模拟器中引入对称性,我们需要一个能够产生轨迹等变分布的模型,而不是等变函数近似。
方法:我们提出了等变概率神经网络模拟(EPNS)框架,用于系统演化的自回归概率建模。我们使用EPNS设计了随机n体系统和随机细胞动力学的模型。
效果:实验结果表明,EPNS在基于神经网络的概率模拟方面大大优于现有的方法。具体来说,我们在EPNS中引入等变性,提高了模拟质量、数据效率、滚动稳定性和不确定性量化。我们认为EPNS是一种有前景的方法,可用于各种领域的高效有效的数据驱动概率模拟。
Probabilistic Exponential Integrators
Nathanael Bosch Philipp Hennig Filip Tronarp
研究问题:本文旨在解决在动态系统中,概率解算器在处理某些刚性系统时性能下降的问题。
动机:由于需要稳定性而非数值精度,刚性系统中的微小步骤会导致标准解算器的性能下降。
方法:通过在先验中包含快速线性动力学,提出了一类具有有利特性的概率指数积分器。
效果:实验证明,这种方法比已建立的概率解算器在处理刚性微分方程时具有更好的稳定性和效率。
Learning Efficient Surrogate Dynamic Models with Graph Spline Networks
Chuanbo Hua Federico Berto Michael Poli Stefano Massaroli Jinkyoo Park
研究问题:如何降低物理系统模拟的计算需求,提高预测速度?
动机:尽管深度学习在工程和科学计算中广泛应用,但降低物理系统模拟的高计算需求仍是一个挑战。
方法:本文提出了一种名为GraphSplineNets的新型深度学习方法,通过减少深度替代模型的网格大小和迭代步数来加速物理系统的预测。该方法使用两种可微分正交样条配点法,以高效地预测任何时间和空间位置的反应。此外,还引入了一种自适应的空间配点策略,优先从最重要的区域进行采样。
效果:GraphSplineNets在预测各种复杂动态系统(包括热方程、阻尼波传播、纳维-斯托克斯方程以及规则和非规则域中的实海流)时,改善了精度与速度之间的权衡关系。
Differentiable Random Partition Models
Thomas M. Sutter Alain Ryser Joram Liebeskind Julia E Vogt
研究问题:将一组元素分割成未知数量的互斥子集在许多机器学习问题中是必要的。
动机:分配元素(如数据集中样本或网络层中的神经元)到未知和离散数量的子集本质上是不可微分的,这阻止了端到端基于参数的梯度优化。
方法:我们通过提出一种新的两步法来推断分区,从而克服了这个限制,使其能够在变分推理任务中使用。这种方法通过推断每个子集的元素数量,然后按照学习的顺序填充这些子集,实现了新的随机分区模型的参数重参数化梯度。
效果:我们在三个具有挑战性的实验中展示了我们的方法的通用性:变分聚类、弱监督下共享和独立生成因子的推理以及多任务学习。
Leveraging Locality and Robustness to Achieve Massively Scalable Gaussian Process Regression
Robert F Allison Anthony Stephenson Samuel F Edward Pyzer-Knapp
研究问题:高斯过程回归(GP)在大型应用中的准确预测和原理性不确定性测量成本过高。
动机:由于现代大规模应用中高斯过程回归的准确预测和原理性不确定性测量的成本过高,因此进行了大量的计算效率近似研究。
方法:通过理论和模拟探索了高斯过程最近邻(GPnn)预测的鲁棒性和极限行为。
效果:研究发现,随着数据量n的增加,估计参数和高斯过程模型假设对GPnn预测精度的影响逐渐减小。即使在存在严重错误指定的情况下,也只需要花费少量工作在参数估计上就可以实现高均方误差精度。此外,当n趋向于无穷大时,不确定性校准和负对数似然仍然对一个参数敏感,即附加噪声方差,但研究表明这种不准确性来源可以通过修正得到纠正,从而实现了低计算成本下的准确预测和良好校准的不确定性测量。
SAMoSSA: Multivariate Singular Spectrum Analysis with Stochastic Autoregressive Noise
Abdullah Omar Alomar Munther A. Dahleh Sean Mann Devavrat Shah
研究问题:本文旨在解决时间序列分析中同时估计确定性非平稳趋势和季节性成分以及学习残差随机平稳成分的问题,并建立多阶段学习算法的理论依据。
动机:尽管在没有相关平稳成分的情况下,可以使用多元奇异谱分析(mSSA)准确学习确定性非平稳成分,或者使用普通最小二乘法(OLS)容易地学习自回归(AR)平稳成分,但多阶段学习算法的理论依据在文献中尚未明确。
方法:本文提出了一种自然两阶段算法SAMoSSA,首先应用mSSA来估计非平稳成分,尽管存在相关的AR平稳成分,然后从剩余的时间序列中学习该AR成分。我们为该算法提供了有限的样本预测一致性边界,这是一种数据驱动的算法,因此需要最小的参数调整。
效果:通过代表性的实证研究,我们验证了SAMoSSA与现有基线相比的优越性能。值得注意的是,SAMoSSA能够考虑AR噪声结构,从而在不同的基准数据集上实现了5%到37%的性能提升。
On kernel-based statistical learning theory in the mean field limit
Christian Fiedler Michael Herty Sebastian Trimpe
研究问题:本文旨在研究当输入变量数量趋向无穷大时,如何进行机器学习。
动机:受交互粒子系统机器学习的启发,我们考虑了输入变量数量无限大的情况。
方法:我们继续研究了核函数及其再生核希尔伯特空间的平均场极限,完善了现有理论。同时,我们还提供了在平均场极限下使用这些核函数进行近似的相关结果,包括一个表示定理。最后,我们在统计学习的背景下使用了这些核函数,重点关注支持向量机。
效果:我们的结果表明,经验解和无穷样本解以及相应的风险都收敛于平均场。一方面,我们的研究为大规模问题提供了新的理论工具和见解,确立了核方法的严格平均场极限。另一方面,我们的研究环境对应于一种新的学习问题极限形式,这在统计学习理论文献中似乎尚未被研究过。
ContiFormer: Continuous-Time Transformer for Irregular Time Series Modeling
Yuqi Chen Kan Ren Yansen Wang Yuchen Fang Weiwei Sun Dongsheng Li
研究问题:如何有效地对非规则时间序列进行建模,以捕捉数据演变和连续发生的相关性?
动机:传统的基于神经网络的方法,如循环神经网络或Transformer模型,由于其离散特性,在处理连续时间数据时存在局限性。虽然神经常微分方程(Neural ODEs)及其变体在处理非规则时间序列方面表现出了潜力,但它们往往无法捕捉到这些序列中的复杂关联性。因此,同时捕捉输入数据点之间的关系并捕获连续时间系统的动态变化是一个具有挑战性的需求。
方法:我们提出了ContiFormer,这是一种将神经ODE的连续动态建模能力与Transformer的注意力机制相结合的新型模型。我们通过数学方式描述了ContiFormer的表达能力,并通过精心设计的函数假设,将许多专门用于非规则时间序列建模的Transformer变体作为ContiFormer的特例进行了覆盖。
效果:我们在合成数据集和真实世界数据集上进行了大量的实验,结果显示ContiFormer在非规则时间序列数据的建模能力和预测性能上都表现出了优越性。
On the Identifiability and Interpretability of Gaussian Process Models
Jiawen Chen Wancen Mu Yun Li Didong Li
研究问题:本文对在单输出高斯过程(GP)模型中使用Matérn核的加性混合的实践进行了批判性审查,并探讨了多输出GP模型中Matérn核的乘性混合的性质。
动机:对于单输出情况,作者们推导出一系列理论结果,表明Matérn核混合物的平滑度由最不平滑的组件决定,并且具有这种核的GP实际上等效于最不平滑的核组件。此外,作者们证明,单个内核组件内的混合权重或参数均无法识别。
方法:作者们将注意力转向多输出GP模型,并分析了乘性核$K(x,y) = AK_0(x,y)$中的协方差矩阵$A$的可识别性,其中$K_0$是标准的单输出内核,如Matérn。结果显示,$A$可以识别出一个乘性常数,这表明乘性混合物非常适合多输出任务。
效果:作者们的研究得到了广泛的模拟和实际应用的支持,无论是在单输出还是多输出设置中。这项工作为高斯过程模型的内核选择和解释提供了深入的见解,强调了为不同任务选择适当的内核结构的重要性。
Efficient Exploration in Continuous-time Model-based Reinforcement Learning
Lenart Treven Jonas Hübotter Bhavya Sukhija Florian Dorfler Andreas Krause
研究问题:本文旨在解决强化学习算法在处理连续时间动态系统时的问题。
动机:尽管底层系统通常是连续的,但现有的强化学习算法通常只考虑离散时间动态。
方法:本文提出了一种基于模型的强化学习方法,使用非线性常微分方程(ODEs)来表示连续时间动态。通过校准概率模型捕获认识不确定性,并使用乐观原则进行探索。
效果:实验结果表明,当使用高斯过程(GP)对常见的测量选择策略(MSS)如等距离采样进行建模时,该方法的遗憾是次线性的。此外,本文还提出了一种自适应、数据依赖的实际MSS,当与GP动态结合使用时,也实现了次线性的遗憾,且样本数量显著减少。
A Pseudo-Semantic Loss for Autoregressive Models with Logical Constraints
Kareem Ahmed Kai-Wei Chang Guy Van den Broeck
研究问题:如何将符号学习和神经网络学习相结合,以更好地进行学习。
动机:纯粹的符号学习和神经网络学习方法之间存在鸿沟,需要通过最大化符号约束相对于神经网络输出分布的可能性来弥合这一鸿沟。
方法:提出了一种局部近似的方法,即在模型样本周围对约束的似然性进行近似,而不是在整个似然分布上执行约束。这种方法是可分解的,可以复用子问题的解,为神经符号损失的有效计算提供了主要原则。
效果:在数独和最短路径预测等任务上,该方法大大提高了模型预测逻辑一致输出的能力。在大型语言模型的解毒任务中,使用简单的禁止有毒词汇列表的约束,能够使模型的输出远离有毒生成,与以往的方法相比取得了最先进的效果。
Structure Learning with Adaptive Random Neighborhood Informed MCMC
Xitong Liang Alberto Caron Samuel Livingstone Jim Griffin
研究问题:本文旨在提出一种新的MCMC采样器PARNI-DAG,用于在观察数据下进行结构学习的全贝叶斯方法。
动机:在假设因果充分性的情况下,该算法允许直接从有向无环图(DAGs)的后验分布中进行近似采样。
方法:PARNI-DAG通过局部信息、自适应随机邻域建议进行高效的DAG采样,以提高混合属性。此外,为了确保更好的扩展性,我们将PARNI-DAG与预调谐采样器参数的程序相结合,该程序利用通过一些约束或评分算法得出的骨架图。
效果:由于这些新颖的特性,PARNI-DAG能快速收敛到高概率区域,并且在高维设置中节点之间高度相关时,不太可能陷入局部模式。在介绍了PARNI-DAG的技术新颖性之后,我们在各种实验中实证地展示了其在学习DAG结构上的混合效率和准确性。
Fast Conditional Mixing of MCMC Algorithms for Non-log-concave Distributions
Xiang Cheng Bohan Wang Jingzhao Zhang Yusong Zhu
研究问题:MCMC算法在目标分布非对数凹时,理论混合速度慢。
动机:弥补MCMC算法在非对数凹目标分布下的理论和实践之间的差距。
方法:当Poincaré风格的不等式在状态空间的子集上成立时,证明了MCMC迭代在该子集上的条件分布能快速混合到真实条件分布。
效果:这种快速混合的保证可以在全局混合被证明为缓慢的情况下成立。进一步发现,条件混合对于高斯混合的采样、高斯混合模型的参数估计以及具有良好连接局部极小值的吉布斯采样有影响。
Asymptotics of Bayesian Uncertainty Estimation in Random Features Regression
Youngsoo Baek Samuel Berchuck Sayan Mukherjee
研究问题:本文比较了后验预测分布与随机特征回归模型的最大后验估计器风险在过参数化区域中的行为。
动机:主要关注后验预测分布的方差(贝叶斯模型平均)并将其渐近性与MAP估计器的风险进行比较。
方法:通过数值模拟,展示了在模型维度增长快于任何常数倍数样本数量的情况下,这两种量之间的相位转变如何支配它们的渐进一致性。
效果:数值模拟揭示了两种量的有限维分布特性,并推测它们具有高斯波动性,表现出与先前作者在高斯序列模型中发现的类似性质,这在理论上是独立的。
Variational Weighting for Kernel Density Ratios
Sangwoong Yoon Frank C. Park Gunsu S YUN Iljung Kim Yung-Kyun Noh
研究问题:本文旨在通过优化权重函数,减少标准核密度估计的偏差,提高预测后验和信息论测量的估计精度。
动机:在机器学习中,核密度估计是生成性和判别性任务的关键。然而,标准的核密度估计存在偏差,影响了预测后验和信息论测量的精度。
方法:利用多维变分微积分工具,推导出一种最优的权重函数,用于降低标准核密度估计的偏差。
效果:实验结果表明,使用这种最优权重函数可以显著提高预测后验和信息论测量的估计精度。
A Bayesian Take on Gaussian Process Networks
Enrico Giudice Jack Kuipers Giusi Moffa
研究问题:本文旨在利用高斯过程网络(GPNs)进行贝叶斯结构学习,以实现对网络结构的后验分布的采样。
动机:传统的贝叶斯结构学习方法在计算网络结构的后验分布时存在计算上的困难,因此需要寻找一种有效的方法来进行采样。
方法:本文采用了蒙特卡洛和马尔可夫链蒙特卡洛方法来从网络结构的后验分布中进行采样。这种方法遵循贝叶斯范式,通过比较模型的边际似然性来计算GPN特征的后验概率。
效果:模拟研究表明,该方法在恢复网络结构方面优于现有的最优算法,并能准确近似其后验分布。
Granger Components Analysis: Unsupervised learning of latent temporal dependencies
Jacek Dmochowski
研究问题:提出一种新的基于格兰杰因果关系的无监督学习时间序列数据的技术。
动机:现有的技术在处理多变量数据集时,无法有效地识别和利用潜在的时间序列。
方法:开发了一种交替学习的坐标下降算法,通过最大化潜在时间序列之间的格兰杰因果关系来学习多元数据集的投影对。
效果:在模拟向量自回归(VAR)数据上,该技术可以盲识别底层源(最多到规模)。在运动想象实验的头皮脑电图(EEG)数据和功能磁共振成像(fMRI)数据上进行测试,结果显示,该技术能够实现与提示手侧相同的横向化,并表达先前报告的静息状态网络。
Entropy-based Training Methods for Scalable Neural Implicit Samplers
Weijian Luo Boya Zhang Zhihua Zhang
研究问题:如何有效地从非标准化的目标分布中进行采样是科学计算和机器学习中的一个基本问题。
动机:传统的MCMC等方法虽然能保证从这种分布中渐近无偏地采样,但计算效率低下,特别是在处理高维目标时,需要多次迭代才能生成一批样本。
方法:本文提出了一种高效且可扩展的神经隐式采样器,通过利用直接将易采样的潜在向量映射到目标样本而无需迭代过程的神经转换,可以以较低的计算成本生成大量的样本。同时引入了KL训练方法和Fisher训练方法来训练神经隐式采样器。
效果:在三个不同规模的采样基准测试中,包括从2D目标、贝叶斯推理以及高维能量基模型(EBMs)中采样,证明了所提出的采样器的有效性、效率和可扩展性。特别是在涉及高维EBMs的实验中,我们的采样器生成的样本与基于MCMC的方法生成的样本相当,但效率提高了100倍以上。
Learning Space-Time Continuous Latent Neural PDEs from Partially Observed States
Valerii Iakovlev Markus Heinonen Harri Lähdesmäki
研究问题:如何从不规则时空网格上的噪声和部分观测中学习偏微分方程(PDEs)。
动机:现有的方法在处理部分观测数据时存在局限性,需要开发一种能够有效处理这种情况的新模型。
方法:提出了一种空间-时间连续的潜在神经PDE模型,该模型结合了配置方法和行方法,并采用了有效的概率框架和新型编码器设计以提高数据效率和网格独立性。
效果:实验结果表明,该模型在复杂合成和真实世界数据集上表现出最先进的性能,克服了现有方法的限制,能有效处理部分观测数据。
Curve Your Enthusiasm: Concurvity Regularization in Differentiable Generalized Additive Models
Julien Niklas Siems Konstantin Ditschuneit Winfried Ripken Alma Lindborg Maximilian Schambach Johannes Otterbach Martin Genzel
研究问题:本文旨在解决广义可加模型(GAMs)的依赖性问题,即特征之间的相关性可能影响模型的解释性。
动机:尽管广义可加模型在解释性方面受到欢迎,但其对相关性(可能是非线性的)的敏感性尚未得到广泛关注。
方法:作者提出了一种有效的正则化方法,该方法惩罚非线性转换后的特征变量的成对相关性。这种方法适用于任何可微的附加模型,如神经附加模型或神经预测器。
效果:实验证明,通过减少GAMs中的相关性,可以在不显著降低预测质量的情况下提高解释性和减少特征重要性的方差。
Geometric Neural Diffusion Processes
Emile Mathieu Vincent Dutordoir Michael John Hutchinson Valentin De Bortoli Yee Whye Teh Richard E Turner
研究问题:扩散模型在生成建模中已被证明是灵活和有效的,但其在处理自然科学中的对称性和非欧几里得空间数据时存在问题。
动机:为了解决这些问题,本文将扩散模型的框架扩展到无限维欧几里得空间,以纳入一系列几何先验。
方法:通过a)构造一个允许作为极限分布的几何高斯过程的噪声过程,该过程在感兴趣的对称群下变换,以及b)用关于该群等变的神经网络近似得分。
效果:实验表明,该生成功能性模型具有相同的对称性。通过使用一种新的基于朗之万的条件采样器,我们展示了该模型在复杂标量场和矢量场上的可扩展性和容量,这些场在合成和现实世界的天气数据上具有欧几里得和球面域。
Reliable Off-Policy Learning for Dosage Combinations
Jonas Schweisthal Dennis Frauen Valentyn Melnychuk Stefan Feuerriegel
研究问题:个性化医疗中如何为多种连续治疗做出最佳剂量组合的决策。
动机:现有方法独立地对多种治疗的效果进行建模,而联合效果的估计却鲜有关注且存在挑战。
方法:提出一种新颖的方法用于可靠的非策略学习以确定剂量组合。包括三个步骤:(1)开发一个定制的神经网络来估计个体化的剂量反应函数,同时考虑多个依赖剂量的联合效应。(2)使用条件正态流估计广义倾向分数,以检测共享协变量-治疗空间中的有限重叠区域。(3)提出一种基于梯度的学习方法来找到最优的个体化剂量组合,确保通过避免有限重叠区域可靠地估计策略值。
效果:通过广泛的评估表明该方法的有效性。据我们所知,这是首次提供一种用于优化剂量组合的可靠非策略学习方法。
Bounce: Reliable High-Dimensional Bayesian Optimization for Combinatorial and Mixed Spaces
Leonard Papenmeier Luigi Nardi Matthias Poloczek
研究问题:如何优化高维黑箱函数,特别是在混合和组合输入空间中的问题。
动机:现有的贝叶斯优化方法在解决这类问题时表现不稳定,当函数的未知最优解没有特定结构时,其性能会大幅降低。
方法:本文提出了一种名为Bounce的方法,该方法将各种变量类型映射到嵌套的、维度逐渐增大的嵌入中。
效果:实验表明,Bounce在各种高维问题上都能稳定地达到甚至超过现有的最佳性能。
Add and Thin: Diffusion for Temporal Point Processes
David Lüdke Marin Biloš Oleksandr Shchur Marten Lienen Stephan Günnemann
研究问题:如何提高预训练语言模型在知识驱动任务上的性能,同时保持对其他常见NLP任务的优异表现?
动机:目前的预训练语言模型缺乏对结构化知识的利用,而知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:通过结合大规模文本语料库和知识图谱进行联合训练,提出了一种增强的语言表示模型ERNIE。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
MMGP: a Mesh Morphing Gaussian Process-based machine learning method for regression of physical problems under nonparametrized geometrical variability
Fabien Casenave Brian Staber Xavier Roynard
研究问题:在工业设计中,模拟物理现象时,几何变化是主要的关注点。
动机:虽然经典的回归技术对参数化的几何有效,但实际场景经常在推理阶段缺乏形状参数化,只剩下网格离散化可用数据。从这种基于网格的表示学习模拟提出了重大挑战。
方法:我们提出了一种不依赖图神经网络的机器学习方法。通过将复杂的几何形状和固定拓扑的变化转换为常见的支持进行网格变形,结合经典的降维技术和高斯过程进行处理。
效果:所提出的方法可以容易地处理大型网格,无需显式的形状参数化,并提供关键的预测不确定性,这对于知情决策至关重要。在考虑的数字实验中,所提出的方法在训练效率和预测准确性方面与现有的图神经网络具有竞争力。
Bayesian nonparametric (non-)renewal processes for analyzing neural spike train variability
David Liu Máté Lengyel
研究问题:如何准确捕捉和量化神经脉冲活动的瞬时变化性,以及其与各种共变量(如感官输入或行为)的复杂依赖关系。
动机:目前的基于点过程的方法只能捕捉到神经脉冲活动瞬时均值对共变量的依赖,而无法捕捉瞬时变化性。为了解决这个问题,提出了一种可扩展的贝叶斯方法,该方法通过使用稀疏变分高斯过程来泛化调制更新过程。
方法:利用路径条件计算条件间期分布的非参数先验,并依靠自动相关性检测来发现超过更新顺序的滞后间期依赖关系。
效果:在合成数据上进行了系统验证后,将该方法应用于两个基础的动物导航数据集:自由移动小鼠的头部方向细胞和沿直线轨道奔跑的大鼠的海马位置细胞。模型展现出与最先进的基线相比具有竞争力或更好的预测能力,并在捕获间期统计方面优于它们。这些结果证实了建模共变量依赖性脉冲变化性的重要性。
L-C2ST: Local Diagnostics for Posterior Approximations in Simulation-Based Inference
Julia Linhart Alexandre Gramfort Pedro L. C. Rodrigues
研究问题:如何评估基于模拟的推理(SBI)中复杂高维后验分布的近似值是否可信。
动机:大多数方法仅在观察空间的期望上评估后验估计器,这限制了其可解释性,并不足以确定哪些观察值的近似值可以信任或需要改进。
方法:提出了一种新的方法$\ell$-C2ST,该方法可以在任何给定的观察值处对后验估计器进行局部评估。它提供了理论依据和易于理解的诊断,与C2ST不同,它不需要访问真实后验样本。
效果:在标准的SBI基准测试中,$ell$-C2ST提供了与C2ST相当的结果,并优于其他局部方法,如基于最高预测密度(HPD)的覆盖测试。我们还强调了局部评估的重要性和$\ell$-C2ST在计算神经科学中的挑战性应用的可解释性优势。
Continuous Parametric Optical Flow
Jianqin Luo Zhexiong Wan yuxin mao Bo Li Yuchao Dai
研究问题:提出一种连续参数光流模型,用于表示任意时间间隔内的密集和连续运动。
动机:现有的离散时间表示(即在连续帧之间的流动)无法充分捕捉到连续的密集运动。
方法:通过使用B-splines来拟合有限的几帧中的点轨迹,并添加一个带有神经常微分方程(ODE)的编码器来表示与特定时间相关联的特征。
效果:由于显式参数建模和隐式特征优化的结合,该模型专注于运动连续性,并在拟合长期和可变序列方面优于基于流和点跟踪的方法。
The Rank-Reduced Kalman Filter: Approximate Dynamical-Low-Rank Filtering In High Dimensions
Jonathan Schmidt Philipp Hennig Jörg Nick Filip Tronarp
研究问题:高维动力系统中的推理和模拟仍然是计算上的挑战。
动机:需要某种形式的降维以使问题在一般情况下可处理。
方法:本文提出了一种新的近似高斯滤波和平滑方法,通过传播协方差矩阵的低秩近似来实现。这通过将与预测步骤相关的李雅普诺夫方程投影到低秩矩阵的流形上,然后由最近开发的数值稳定的动态低秩积分器来解决。同时,通过注意到协方差更新只转换协方差矩阵的列空间(其本身就是低秩构造)来使更新步骤具有可操作性。该算法与现有的基于集成的方法不同,因为协方差矩阵的低秩近似是确定性的,而不是随机的。
效果:我们的方法将计算复杂度从立方体(对于卡尔曼滤波器)降低到状态空间大小最坏情况下的二次方,并且如果状态空间模型满足某些标准,可以实现线性复杂度。通过一系列经典数据同化和时空回归实验,我们表明所提出的方法在均值和协方差的误差方面始终优于基于集成的方法,相对于精确的卡尔曼滤波器没有额外的计算复杂度成本。
Approximate inference of marginals using the IBIA framework
Shivani Bathla Vinita Vasudevan
研究问题:概率图模型(PGM)的边缘精确推断是困难的,需要使用近似方法。
动机:现有的变分技术在循环图中进行迭代消息传递,对于许多基准测试来说,收敛速度很慢。
方法:本文提出了一种新的边缘推断算法,基于增量构建-推理-近似(IBIA)范式。该算法将PGM转换为一系列链接的团树森林(SLCTF),并使用启发式信念更新算法来推断边缘。
效果:对于贝叶斯网络的特殊案例,如果IBIA的增量构建步骤使用变量的拓扑顺序,那么(a)所有CTF中的先验边缘是一致的,(b)一旦所有证据变量添加到SLCTF中,后验边缘就是一致。在我们的方法中,信念传播步骤是非迭代的,准确性-复杂性权衡是通过用户定义的团大小边界来控制的。对最近几次UAI竞赛的几个基准集的结果表明,我们的方法在准确性上至少与现有的变分和采样方法相当,同时运行时间更短。
Unbiased constrained sampling with Self-Concordant Barrier Hamiltonian Monte Carlo
Maxence Noble Valentin De Bortoli Alain Durmus
研究问题:本文提出了一种基于障碍哈密顿蒙特卡洛(BHMC)的采样方法,该方法旨在从具有Hessian度量的流形上的吉布斯分布中进行采样。
动机:现有的哈密顿蒙特卡洛(HMC)算法在黎曼流形上的应用存在不可避免的偏差。
方法:本文提出了一种新的滤波步骤,称为“对自反检查步骤”,以解决这个问题。这个步骤分别在连续BHMC(c-bHMC)和数值BHMC(n-BHMC)两种版本中实现。
效果:这两种新算法都能生成相对于π的可逆马尔科夫链,并且与以前的实现相比没有任何偏差。这一结论得到了数值实验的支持,其中考虑了定义在多面体上的目标分布。
Generative Modeling through the Semi-dual Formulation of Unbalanced Optimal Transport
Jaemoo Choi Jaewoong Choi Myungjoo Kang
研究问题:本文旨在解决最优传输(OT)问题在生成模型任务中的应用,特别是其对异常值的敏感性和训练过程中的优化挑战。
动机:最优传输(OT)被广泛用于生成模型任务,但其对异常值敏感且训练时面临优化难题。
方法:本文提出了一种基于非平衡最优传输(UOT)半双线性形式的新生成模型。与OT不同,UOT放松了分布匹配的硬约束,提高了对异常值的鲁棒性,稳定性和训练速度。
效果:实验证明,该模型优于现有的OT基生成模型,在CIFAR-10上取得了2.97的FID分数,在CelebA-HQ-256上取得了5.80的FID分数。
Integration-free Training for Spatio-temporal Multimodal Covariate Deep Kernel Point Processes
YIXUAN ZHANG Quyu Kong Feng Zhou
研究问题:本文提出了一种新的深度时空点过程模型,即深度核混合点过程(DKMPP),该模型能够整合多模态协变量信息。
动机:为了解决传统模型在处理复杂事件和协变量数据关系时的局限性,我们提出了一种使用更灵活的深度内核来提高模型表现力的方法。
方法:我们采用了基于得分匹配的无集成训练方法,并进一步通过采用可扩展的去噪得分匹配方法来提高效率。
效果:实验结果表明,DKMPP及其对应的基于得分的估计器优于基线模型,展示了整合协变量信息、使用深度内核和采用基于得分的估计器的优势。
Joint Bayesian Inference of Graphical Structure and Parameters with a Single Generative Flow Network
Tristan Deleu Mizu Nishikawa-Toomey Jithendaraa Subramanian Nikolay Malkin Laurent Charlin Yoshua Bengio
研究问题:如何更准确地对贝叶斯网络的结构和参数进行联合后验分布近似。
动机:现有的方法仅能对贝叶斯网络的结构进行近似,而忽视了其参数的重要性。
方法:提出一种基于生成流网络(GFlowNets)的方法,该方法通过两阶段采样策略同时估计贝叶斯网络的结构和参数。
效果:实验证明,该方法在模拟数据和真实数据上都优于现有方法,能更准确地近似联合后验分布。
Conformal Prediction for Time Series with Modern Hopfield Networks
Andreas Auer Martin Gauch Daniel Klotz Sepp Hochreiter
研究问题:如何将一致性预测方法应用于时间序列,以解决其自相关性结构违反一致性预测的基本假设的问题。
动机:现有的一致性预测方法难以应用于时间序列,因为其自相关性结构违反了一致性预测的基本假设。
方法:提出HopCPT,一种新颖的一致性预测方法,该方法不仅能够处理时间序列的结构,而且可以利用它们。
效果:实验结果表明,我们的方法在存在时间依赖性的时间序列上优于最先进的一致性预测方法。
Particle-based Variational Inference with Generalized Wasserstein Gradient Flow
Ziheng Cheng Shiyue Zhang Longlin Yu Cheng Zhang
研究问题:现有的粒子变分推断方法在设计核函数时通常具有挑战性,限制了其灵活性。
动机:近期的研究表明,带有二次形式正则化项的功能梯度流近似可以提高性能。
方法:本文提出了一种基于KL散度的广义Wasserstein梯度流的粒子变分推断框架(GWG),这是一种带有由凸函数诱导的更广泛类别的正则化器的函数梯度方法。
效果:实验证明,GWG展现出强大的收敛保证。我们还提供了一个自适应版本,可以自动选择Wasserstein度量以加速收敛。在模拟和真实数据问题上,我们展示了所提出框架的有效性和效率。
Robust covariance estimation with missing values and cell-wise contamination
gregoire pacreau Karim Lounici
研究问题:大型数据集经常受到以缺失或错误数据形式的单元异常值的影响,如何处理这些异常值是一个问题。
动机:丢弃包含异常值的任何样本可能导致数据集过小,无法准确估计协方差矩阵。同时,针对此问题设计的鲁棒程序需要协方差算子的可逆性,因此在高维数据上效果不佳。
方法:本文提出了一种在存在缺失值的情况下估计协方差的无偏估计器,该估计器不需要任何插补步骤,并且在算子范数下仍能达到接近最小最大统计精度。我们还主张将其与单元异常检测方法结合使用,以解决高维低秩设置中的单元污染问题。
效果:通过实验研究,我们的方法在低维和高维设置中都优于现有技术,证明了其优越性。
On the Consistency of Maximum Likelihood Estimation of Probabilistic Principal Component Analysis
Arghya Datta Sayak Chakrabarty
研究问题:概率主成分分析(PPCA)模型的最大似然估计存在理论保证的问题。
动机:尽管PPCA在科学、工程和金融等领域有广泛应用,但其最大似然估计(MLE)的解决方案缺乏理论保证。
方法:提出使用商空间的新方法,证明最大似然解在适当的商欧几里得空间中是一致的。
效果:建立了PPCA模型的最大似然估计的强一致性和协方差估计,并扩展了更一般的估计器类别。
Flat Seeking Bayesian Neural Networks
Van-Anh Nguyen Long Tung Vuong Hoang Phan Thanh-Toan Do Dinh Phung Trung Le
研究问题:本文旨在通过引入先验分布和后验推断,为深度学习模型提供一种贝叶斯神经网络(BNNs)的概率解释,并开发了一种关注锐度的后验推断理论、贝叶斯设置和变分推断方法。
动机:现有的后验推断并未考虑到模型的锐度/平坦度,可能导致采样出的模型锐度过高。而深度学模型的锐度较低通常具有更好的泛化能力。
方法:通过在模型参数上施加先验分布,并根据观察到的数据推断后验分布,开发出关注锐度的后验推断理论、贝叶斯设置和变分推断方法。
效果:实验结果显示,利用关注锐度的后验推断与最先进的贝叶斯神经网络结合,得到的平缓模型在所有关注指标上都优于其基线模型。
Langevin Quasi-Monte Carlo
Sifan Liu
研究问题:本文旨在探讨利用具有低差异性质的完全均匀分布序列来生成高斯扰动,以降低Langevin Monte Carlo算法的估计误差。
动机:在复杂高维分布采样中,Langevin蒙特卡洛及其随机梯度版本是强大的算法。通过将独立随机样本替换为低差异序列等准随机样本,可以显著降低普通蒙特卡洛的估计误差。本文旨在证明,对于Langevin蒙特卡洛,使用低差异性的完全均匀分布序列也可以降低其估计误差。
方法:具体来说,我们提出使用具有特定低差异性质的完全均匀分布序列来生成高斯扰动。在平滑性和凸性条件下,我们证明了使用低差异CUD序列的LMC比标准的LMC具有更小的误差。
效果:理论分析得到了令人信服的数值实验的支持,这些实验表明了我们的方法的有效性。
A Unified Discretization Framework for Differential Equation Approach with Lyapunov Arguments for Convex Optimization
Kansei Ushiyama Shun Sato Takayasu Matsuo
研究问题:本文旨在解决利用连续微分方程进行凸优化的问题,即如何将优化方法与特定的连续微分方程和速率揭示的李雅普诺夫泛函联系起来。
动机:尽管Su-Boyd-Candès(2014)的开创性论文使连续微分方程方法在凸优化中越来越受到关注,但这种方法仍然缺乏一个关键部分,使其无法真正有用:没有通用、一致的方法可以转换回离散优化方法。因此,即使我们从连续微分方程中获得洞察,我们仍然需要为每种方法的分析执行个性化和繁琐的计算。
方法:本文通过引入一个新的概念“弱离散梯度”(wDG)来填补这一空白,该概念整合了DE方法参数中离散梯度所需的条件。然后,我们使用wDG定义抽象优化方法并提供与连续微分方程平行的抽象收敛理论。
效果:我们证明许多典型的优化方法和它们的收敛率都可以作为这种抽象理论的特例推导出来。所提出的统一离散化框架为利用微分方程进行凸优化提供了一种简单的环境,便于开发新的优化方法和实现与最先进的方法(如Nesterov加速梯度)相竞争的收敛速度。
Exploring the Optimal Choice for Generative Processes in Diffusion Models: Ordinary vs Stochastic Differential Equations
Yu Cao Jingrun Chen Yixin Luo Xiang ZHOU
研究问题:本文旨在解决在计算机视觉中,基于ODE的概率流和基于SDE的扩散模型哪个更优越以及在什么情况下更优越的问题。
动机:由于对数据分布、得分训练和其他数值问题的依赖性,比较这两种模型具有挑战性。因此,本文希望通过数学方法对此进行研究。
方法:本文首先引入脉冲形状误差来扰动得分函数,并分析采样质量的错误累积,然后对任意误差的泛化进行了全面分析。
效果:研究发现,当扰动发生在生成过程结束时,具有大扩散系数的ODE模型优于SDE模型。然而,当扰动发生在较早的时候,SDE模型则优于ODE模型。此外,我们还发现,随着扩散项的大小增加到无穷大,由于脉冲形状扰动导致的样本生成错误会呈指数级抑制。通过高斯分布、高斯混合分布、瑞士卷分布以及MNIST和CIFAR-10等真实数据集进行数值验证,证实了这一现象。
Errors-in-variables Fr\'echet Regression with Low-rank Covariate Approximation
Dogyoon Song Kyunghee Han
研究问题:提出一种新的估计方法,解决非欧几里得响应变量的回归分析中存在的局限性。
动机:现有的弗雷歇特回归方法依赖于充足且无噪声协变量数据的理想场景,实际应用受到限制。
方法:通过利用协变量矩阵内在的低秩结构,结合全球弗雷歇特回归和主成分回归的概念,提出了一种新颖的估计方法。
效果:该方法能够更有效地建立和估计模型,尤其在高维和误差变量回归设置中表现优越。理论分析和数值实验结果均支持该方法的优越性能,为非欧几里得变量的回归分析引入了一种有前景的框架。
Hierarchical Semi-Implicit Variational Inference with Application to Diffusion Model Acceleration
Longlin Yu Tianyu Xie Yu Zhu Tong Yang Xiangyu Zhang Cheng Zhang
研究问题:目前的半隐式变分推理(SIVI)方法在处理复杂目标后验分布时,由于通常采用的单层架构可能无法满足需求。
动机:为了解决上述问题,本文提出了一种称为分层半隐式变分推理(HSIVI)的新方法,该方法通过引入辅助分布在简单的基础分布和目标分布之间进行插值,使得条件层能够逐层逐步匹配这些辅助分布进行训练。
方法:HSIVI 将 SIVI 扩展到允许更富有表现力的多层半隐式分布构造。通过使用预训练的得分网络,HSIVI 可以加速具有得分匹配目标的扩散模型的采样过程。
效果:实验结果表明,HSIVI 在几个具有复杂目标分布的贝叶斯推理问题上显著提高了 SIVI 的表现力。当用于加速扩散模型时,HSIVI 可以在各种数据集上以较少的函数评估产生与现有的快速扩散模型基于采样器相媲美或更好的高质量样本。
Gaussian Mixture Solvers for Diffusion Models
Hanzhong Allan Guo Cheng Lu Fan Bao Tianyu Pang Shuicheng YAN Chao Du Chongxuan Li
研究问题:现有的SDE(随机微分方程)求解器在生成高质量样本和图像翻译任务上表现优秀,但在效率-效果的平衡问题上存在困扰。
动机:由于在有限的离散步骤中,反向转移核的高斯假设经常被违反,导致现有的SDE求解器在推理过程中受到严重限制。
方法:提出一种新的基于SDE的求解器——高斯混合求解器(GMS)。该求解器在每一步采样中估计三阶矩并优化高斯混合转移核的参数。
效果:实证结果显示,GMS在各种扩散模型中的图像生成和笔触合成等任务上的样本质量优于其他SDE求解器,验证了GMS的动机和有效性。
Hyperbolic VAE via Latent Gaussian Distributions
Seunghyuk Cho Juyong Lee Dongwoo Kim
研究问题:提出一种利用高斯流形变分自编码器(GM-VAE)进行模型训练的方法,其潜在空间由一组高斯分布构成。
动机:现有的变分自编码器在处理图像数据集的密度估计和基于模型的强化学习状态表示学习等任务上存在不足。
方法:提出了一种基于KL散度、局部平方Fisher-Rao距离近似的高斯流形正态分布,用于定义潜在空间上的密度。
效果:实验证明,GM-VAE在密度估计任务上优于其他超球和欧几里得VAEs变体,并在基于模型的强化学习中表现出竞争力。同时,该模型提供了强大的数值稳定性,解决了先前报道的超球VAEs的一个常见限制。
The probability flow ODE is provably fast
Sitan Chen Sinho Chewi Holden Lee Yuanzhi Li Jianfeng Lu Adil Salim
研究问题:本文旨在为基于得分的生成模型的概率流ODE实现(以及校正步骤)提供首次多项式时间收敛保证。
动机:在最近获得SDE实现(即去噪扩散概率建模或DDPM)此类保证的结果之后,进行此项分析,但需要开发新的技术来研究非收缩性的确定性动力学。
方法:通过使用基于欠阻尼朗之万扩散的特殊选择的校正步骤,我们获得了比先前关于DDPM的工作更好的维度依赖性(假设数据分布的平滑性,$O(\sqrt d)$与$O(d)$相比),突出了ODE框架的潜在优势。
效果:实验结果表明,我们在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
On Calibrating Diffusion Probabilistic Models
Tianyu Pang Cheng Lu Chao Du Min Lin Shuicheng YAN Zhijie Deng
研究问题:如何提高预训练扩散概率模型(DPMs)在各种生成任务上的效果。
动机:扩散概率模型的随机反向数据得分过程是一个鞅,可以推导出数据得分的浓度界限和可选停止定理。
方法:通过一次校准任意预训练的DPM,降低分数匹配损失,从而提高模型似然的下界。提供通用的校准指南。
效果:实验证明,该方法能显著提高DPM在多个数据集上的采样效果,且校准后的模型可重复使用。
Statistical Insights into HSIC in High Dimensions
Tao Zhang Yaowu Zhang Tingyou Zhou
研究问题:衡量随机向量之间的非线性依赖性并测试它们的统计独立性是统计学中的基本问题。
动机:Hilbert-Schmidt独立性准则(HSIC)是最流行的依赖性度量之一,近年来引起了越来越多的关注。然而,大多数现有工作都集中在固定或非常高维的协变量上。
方法:我们填补了这两种情况之间的差距,并对维度以不同速率增长时HSIC的性能提供了统计洞察。
效果:我们首先证明,在零假设下,重新缩放的HSIC会收敛到标准正态分布。然后,我们提供了一个通用条件,使得HSIC基于测试在高维空间中具有非平凡能力。通过分解这个条件,我们说明了随着维度的增加,HSIC测量非线性依赖的能力如何变化。此外,我们还证明了,根据样本大小、协变量的维度以及协变量内部的依赖结构,HSIC可以捕获随机向量之间的不同类型的关联。我们还进行了广泛的数值研究以验证我们的理论结果。
Multinomial Logistic Regression: Asymptotic Normality on Null Covariates in High-Dimensions
Kai Tan Pierre C Bellec
研究问题:本文研究了多项逻辑模型中极大似然估计(MLE)在高维情况下的渐近分布。
动机:传统的大样本理论在某些条件下提供了MLE的渐近正态性,但在高维情况下,这种经典结果可能会失败。
方法:本文针对3个或更多类别的分类问题,对多项逻辑MLE(也称为交叉熵最小化器)进行了渐近正态性和渐近卡方结果的研究。
效果:通过大量的模拟数据验证了这些渐近结果,并确认了用于测试给定特征重要性的提出的p值的有效性。
Perceptual Kalman Filters: Online State Estimation under a Perfect Perceptual-Quality Constraint
Dror Freirich Tomer Michaeli Ron Meir
研究问题:如何从损坏或缺失的数据中重建时间信号,并实现人类感知的最佳质量。
动机:在许多实际场景中,如解码、跟踪、信号增强和去噪等,需要从损坏或缺失的数据中重建时间信号。由于重建的信号最终由人类观察,因此希望实现的重建结果能符合人类的感知。
方法:我们研究了在完美感知质量约束下的最优因果滤波问题,这是一个本质上不同的任务。具体来说,我们分析了通过线性噪声变换观察到的高斯马尔可夫信号。在没有感知约束的情况下,卡尔曼滤波器在这种设置下已知是MSE意义上的最优解。在这里,我们表明添加完美的感知质量约束(即要求时间一致性)引入了一个基本的矛盾,即滤波器可能必须“故意”忽略观察所揭示的新信息,以符合其过去的决策。这通常会导致MSE显著增加(超过静态设置中的MSE)。我们的分析超越了卡尔曼滤波的经典创新过程,引入了未利用的信息过程这一新概念。使用此工具,我们提出了一种感知滤波器的递归公式,并展示了完美感知质量估计对视频重建问题的质量效应。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。同时,我们也展示了完美感知质量估计对视频重建问题的质量效应。
Generator Identification for Linear SDEs with Additive and Multiplicative Noise
Yuanyuan Wang Xi Geng Wei Huang Biwei Huang Mingming Gong
研究问题:如何从给定初始状态的解过程分布中识别线性随机微分方程(SDE)的生成器。
动机:这对于使用线性SDE进行因果推断至关重要,因为它们可以从观察分布中识别出干预后的分布。
方法:我们为识别带有加性噪声和乘性噪声的线性SDE的生成器分别推导出了充分必要条件,并提供了这些条件的几何解释以增强理解。
效果:通过一系列模拟实验验证了理论结果,支持并证实了所建立的发现。
A Riemannian Exponential Augmented Lagrangian Method for Computing the Projection Robust Wasserstein Distance
Bo Jiang Ya-Feng Liu
研究问题:如何有效地缓解经典Wasserstein距离的维数灾难。
动机:提出了投影鲁棒Wasserstein(PRW)距离,以解决经典Wasserstein距离在高维问题上的挑战。
方法:通过将PRW距离的计算等效地重新表述为Stiefel流形和欧几里得空间的笛卡尔积上的优化问题,并添加额外的非线性不等式约束,提出了黎曼指数增强拉格朗日方法(REALM)来解决这个问题。
效果:与现有的黎曼指数惩罚方法相比,REALM可以避免过小的惩罚参数,表现出更稳定的数值性能。同时,设计了一种非精确的带有Sinkhorn迭代的黎曼Barzilai-Borwein方法(iRBBS),可以自适应选择步长,而不是像现有方法那样需要手动调整步长。实验结果表明,iRBBS可以在 $\mathcal{O}(\epsilon^{-3})$ 次迭代内返回原始PRW距离问题的 $\epsilon$-稳定点,这达到了已知的最佳迭代复杂度结果。大量的数值结果也表明,我们提出的方法在计算PRW距离方面优于最先进的求解器。
Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution Strategies
Oscar Li James Harrison Jascha Sohl-Dickstein Virginia Smith Luke Metz
研究问题:如何有效地处理机器学习中具有极端局部敏感性、不连续性或黑箱特性的损失函数的自动微分梯度估计方法。
动机:现有的在线进化策略方法比传统的进化策略更具并行性,但需要解决部分展开和梯度更新的交错问题。
方法:提出一种无偏的在线进化策略方法,通过分析其梯度估计器的方差并确定方差最小的方法(噪声重用进化策略)来解决这个问题。
效果:实验证明,噪声重用进化策略在收敛速度上优于现有的自动微分和进化策略方法,无论是从计算时间还是从展开步骤数量来看,在一系列应用中都表现出色,包括学习动力系统、元训练学习优化器和强化学习等。
Koopman Kernel Regression
Petar Bevanda Max Beier Armin Lederer Stefan Georg Sosnowski Eyke Hüllermeier Sandra Hirche
研究问题:如何利用模拟器或预测模型进行决策制定,特别是在处理非线性动态系统时的挑战。
动机:现有的机器学习方法在处理复杂的预测现象时,通常缺乏必要的学习理论保证,导致随着数据和维度的增加,模型的行为变得不明确。
方法:提出了一种新的基于轨迹的再生核希尔伯特空间(RKHS)Koopman算子理论,将多步预测转化为稀疏矩阵乘法,并使用统计学习工具进行函数逼近,得出新的收敛结果和泛化误差边界。
效果:实验证明,该方法在Koopman算子和序列数据预测器上的预测性能优于RKHS。
Front-door Adjustment Beyond Markov Equivalence with Limited Graph Knowledge
Abhin Shah Karthikeyan Shanmugam Murat Kocaoglu
研究问题:如何有效地从数据中估计因果效应,特别是在处理变量和结果变量被混淆的情况下。
动机:传统的因果效应估计方法需要明确的因果图结构或潜在的结果框架中的(条件)独立声明的假设,而这些假设在实践中很难学习。
方法:本文提出了一种无需知道图结构,仅需要有限的结构边信息就可以计算因果效应的测试条件独立声明的方法。这种方法类似于前门调整,可以在知道马尔科夫等价类不足以进行因果效应估计的场景中使用。
效果:通过在一类随机图以及真实的因果公平基准上进行演示,证明了该方法的有效性。
Deep Equilibrium Based Neural Operators for Steady-State PDEs
Tanya Marwah Ashwini Pokle J Zico Kolter Zachary Chase Lipton Jianfeng Lu Andrej Risteski
研究问题:如何利用数据驱动的机器学习方法解决偏微分方程(PDEs)问题,特别是在已知PDE家族结构知识的情况下,对神经网络架构的设计空间的理解仍然不足。
动机:大部分稳态PDE的解可以表示为非线性操作符的固定点,受此观察启发,我们提出了FNO-DEQ,这是一种深度平衡FNO架构,可以直接求解稳态PDE作为隐式操作层无限深度的固定点。
方法:我们使用黑箱根解决器直接求解稳态PDE作为隐式操作层无限深度的固定点,并通过这个固定点进行解析微分,实现了O(1)的训练内存。
效果:实验表明,基于FNO-DEQ架构的预测稳态PDE(如达西流和不可压缩纳维叶-斯托克斯方程)的解决方案比基于FNO的基线具有4倍的参数数量。此外,当训练数据集的观测噪声较大时,FNO-DEQ比基于FNO的基线更稳健,展示了在针对不同神经网络PDE求解器的架构设计中使用适当的归纳偏差的好处。最后,我们还展示了一个通用近似结果,证明FNO-DEQ可以近似任何可以写成固定点方程的稳态PDE的解。
Percentile Criterion Optimization in Offline Reinforcement Learning
Cyrus Cousins Elita Lobo Marek Petrik Yair Zick
研究问题:如何优化强化学习中高风险决策问题的稳健策略,特别是在数据有限的情况下。
动机:现有的方法通过构建包含真实模型的高概率不确定性集并优化该集中最差模型的策略来优化百分位数准则,但这种方法存在挑战,如非凸性问题和过于保守的策略。
方法:本文提出了一种基于风险价值的动态规划算法,无需显式构建任何不确定性集就可以优化百分位数准则。
效果:理论和实验结果表明,该方法可以隐式地构建更小的不确定性集,学习出更少保守的稳健策略。
Using Imperfect Surrogates for Downstream Inference: Design-based Supervised Learning for Social Science Applications of Large Language Models
Naoki Egami Musashi Hinck Brandon M. Stewart Hanying Wei
研究问题:如何在大规模语言模型(LLMs)的不完美标注下,进行无偏且具有正确不确定性量化的统计推断。
动机:大规模的语言模型虽然可以廉价地对文档进行标注,但这种替代性标注通常是不完美和有偏差的。
方法:提出了一种新的算法,通过设计基于监督学习(DSL)的估计器,将替代标签与少量高质量的黄金标准标签结合,以实现无偏的统计推断。
效果:理论分析和实验结果表明,DSL在保证统计推断有效性的同时,其均方根误差与只关注预测而没有推断保证的现有方法相当。
Continuous-Time Functional Diffusion Processes
Giulio Franzese Giulio Corallo Simone Rossi Markus Heinonen Maurizio Filippone Pietro Michiardi
研究问题:本文旨在提出一种功能扩散过程(FDPs),将基于分数的扩散模型推广到无限维函数空间。
动机:现有的基于分数的扩散模型需要专门的网络架构,并且只能处理特定类型的连续数据。
方法:通过引入新的数学框架来描述前向和后向动力学,并对其进行一些扩展以导出实际的训练目标,包括无穷维吉洪诺夫定理和采样定理,从而构建了一种新的生成模型。
效果:在真实数据上的实验结果表明,FDPs使用简单的多层感知器架构,其参数数量比现有的扩散模型少几个数量级,但能实现高质量的图像生成。
Refined Mechanism Design for Approximately Structured Priors via Active Regression
Christos Boutsikas Petros Drineas Marios Mertzanidis Alexandros Psomas Paritosh Verma
研究问题:如何设计一种机制,使卖家在大量物品中实现收入最大化,同时应对具有未知先验分布的多个战略出价者。
动机:传统的最优机制难以计算和描述,即使找到,也常常包含各种反直觉的性质。
方法:本文采用一种由Cai和Daskalakis最近提出的模型,将出价者的先验分布近似为一个主题模型。设计了一个主动学习组件和一个机制设计组件,前者负责与出价者互动并输出其类型的低维近似,后者负责强化机制以适应前者的低维模型。
效果:本文是首次将机制设计与随机线性代数(RLA)中的回归问题主动学习相结合的工作,为进一步应用随机线性代数原语到机制设计打开了大门。
Block Coordinate Plug-and-Play Methods for Blind Inverse Problems
Weijie Gan Shirin Shoushtari Yuyang Hu Jiaming Liu Hongyu An Ulugbek Kamilov
研究问题:本文旨在解决盲逆向问题,即在未知测量算子的情况下进行图像恢复。
动机:虽然已知的测量算子的PnP方法已被广泛用于图像恢复,但在解决盲逆向问题上的研究却很少。
方法:提出了一种新的块坐标PnP(BC-PnP)方法,通过将学习到的去噪器作为未知图像和未知测量算子的先验引入,有效地解决了这个联合估计问题。
效果:通过考虑非凸数据保真项和扩展去噪器,为BC-PnP提供了与盲逆向问题兼容的新收敛理论。数值实验验证了该方法在两个盲逆向问题上的有效性:磁共振成像中的自动线圈灵敏度估计和盲图像去模糊。结果表明,BC-PnP提供了一个有效且原理性的框架,用于将去噪器作为PnP先验进行测量算子和图像的联合估计。
Self-Consistent Velocity Matching of Probability Flows
Lingxiao Li Samuel Hurault Justin Solomon
研究问题:本文旨在提出一种解决大量守恒偏微分方程(PDEs)的无离散化可扩展框架,包括时变Fokker-Planck方程和Wasserstein梯度流。
动机:目前的方法存在计算障碍和范围限制,需要通过直接最小化固定点方程的残差来解决问题。
方法:我们提出了一种迭代形式,使用带有偏差梯度估计器的固定点方程,避免了显著的计算障碍,并具有强大的实证性能。
效果:实验结果表明,我们的方法在高维情况下具有优越的性能和更少的训练时间,并且能够准确恢复可用的解析解。
Beyond Normal: On the Evaluation of Mutual Information Estimators
Paweł Czyż Frederic Grabowski Julia E Vogt Niko Beerenwinkel Alexander Marx
研究问题:本文旨在构建一个具有已知真实互信息的各种分布的多样化家族,并提出一种用于评估互信息估计器的独立语言基准平台。
动机:互信息是一种通用的统计依赖性度量,已在表示学习、因果关系、领域泛化和计算生物学等领域找到应用。然而,互信息估计器通常在简单的概率分布族上进行评估,如多元正态分布和具有一维随机变量的选定分布。
方法:我们构建了一个具有已知真实互信息的多样化分布族,并提出了用于评估互信息估计器的独立语言基准平台。我们讨论了经典和神经估计器在高维、稀疏交互、长尾分布和高互信息设置中的一般适用性和局限性。
效果:实验结果表明,我们的方法可以有效地评估各种互信息估计器的性能,并为实践者提供了选择适合问题的适当估计器以及在新数据集上应用估计器时需要考虑的问题的指导方针。
Bayesian Learning via Q-Exponential Process
Shuyi Li Michael O'Connor Shiwei Lan
研究问题:本文旨在解决优化、统计和机器学习中的基本问题,即如何通过添加$\ell_q$惩罚项来估计稀疏参数。
动机:为了在估计参数$u\in\mathbb{R}^d$时获得稀疏性,通常在目标函数中添加$\ell_q$惩罚项$\Vert u\Vert_q$。这种$ell_q$惩罚的正态分布是什么?当我们对$L^q$中的函数进行建模时,$\Vert u\Vert_q$的正确随机过程是什么?这对于统计建模高维对象(如图像)以保留某些属性(如图像边缘)至关重要。
方法:我们将 $q$-指数分布(密度与 $\exp{(- \frac{1}{2}|u|^q)}$ 成正比)推广为一种名为 $Q$-指数(Q-EP)过程的随机过程,该过程对应于函数的 $L_q$ 正则化。关键步骤是通过从大量的椭圆形轮廓分布中选择来指定一致的多元 $q$-指数分布。这项工作与贝索夫过程密切相关,后者通常以级数的形式定义。Q-EP 可以被视为具有显式概率公式、对相关性强度的直接控制和可追踪预测公式的贝索夫过程的定义。从贝叶斯的角度来看,Q-EP 提供了比常用的高斯过程(GP,$q=2$)更严格的函数先验。
效果:我们在模拟功能性数据、重建图像和解决反问题方面比较了 GP、贝索夫和 Q-EP,并展示了我们提出的方法的优势。
Learning Energy-based Model via Dual-MCMC Teaching
Jiali Cui Tian Han
研究问题:本文研究了能量基础模型(EBM)的基本学习问题。
动机:传统的通过最大似然估计(MLE)和马尔科夫链蒙特卡洛(MCMC)采样如Langevin动力学来学习EBM在实践中存在挑战,如噪声初始化的Langevin动力学难以混合。
方法:提出了一种联合训练框架,将生成器模型作为补充模型,避免使用MCMC采样。生成器模型同时匹配EBM和经验数据分布,使其成为更有效的EBM MCMC采样的初始化器。
效果:通过两个(双)MCMC教学,三个独立模型可以无缝集成到我们的联合框架中,实现了有效且高效的EBM学习。
Characterization and Learning of Causal Graphs with Small Conditioning Sets
Murat Kocaoglu
研究问题:约束性因果发现算法在数据有限时,由于条件独立性测试的统计效力快速下降,尤其是当条件集较大时,会面临困难。
动机:为了解决这个问题,我们提出了一种方法,即在进行条件独立性测试时,将条件集的大小上限设为某个整数k,以进行稳健的因果发现。
方法:我们首先定义了k-马尔科夫等价的概念,然后提出了一种新的表示方法,可以图形化地描述两个因果图之间的k-马尔科夫等价关系。我们还提出了一种名为k-PC的新算法,用于学习这种等价类。
效果:通过合成和半合成实验,我们发现与基线算法相比,k-PC算法在小样本情况下能实现更稳健的因果发现。
Trust Your $\nabla$: Gradient-based Intervention Targeting for Causal Discovery
Mateusz Olko Michał Zając Aleksandra Nowak Nino Scherrer Yashas Annadani Stefan Bauer Łukasz Kuciński Piotr Miłoś
研究问题:如何从数据中推断出因果关系结构,特别是在观察性数据无法唯一确定系统因果结构的情况下。
动机:干预性数据的获取可以解决这个问题,但通常需要大量的时间和资源投入。
方法:提出了一种新的基于梯度的干预目标方法(GIT),该方法利用梯度估计器提供的信号来确定干预目标函数。
效果:在模拟和真实世界的数据集上进行的大量实验表明,GIT在低数据量的情况下与竞争性基线表现相当,甚至超过它们。
PreDiff: Precipitation Nowcasting with Latent Diffusion Models
Zhihan Gao Xingjian Shi Boran Han Hao Wang Xiaoyong Jin Danielle C. Maddix Yi Zhu Mu Li Bernie Wang
研究问题:传统的地球系统预测依赖于复杂的物理模型,这些模型计算量大且需要大量的专业知识。
动机:过去十年中,时空地球观测数据的空前增长使得使用深度学习技术的基于数据驱动的预测模型成为可能。
方法:我们提出了一个两阶段的时空预测概率管道:1)开发*PreDiff*,一种能够进行概率预测的条件潜在扩散模型;2)引入显式的知识对齐机制,以将预测与特定的物理约束对齐。
效果:我们在两个数据集上进行了实证研究:N体MNIST(一个具有混沌行为的合成数据集)和SEVIR(一个实际降水短时预报数据集)。实验证明,PreDiff在处理不确定性、引入特定领域的先验知识以及生成具有高操作效用的预测方面非常有效。
A Heat Diffusion Perspective on Geodesic Preserving Dimensionality Reduction
Guillaume Huguet Alexander Tong Edward De Brouwer Yanlei Zhang Guy Wolf Ian Adelstein Smita Krishnaswamy
研究问题:扩散基流形学习方法在现代高维、高通量、噪声大的数据集中的表示学习和降维方面已被证明是有用的。
动机:尽管这些方法被认为通过学习测地距离的代理来保留数据的潜在流形结构,但尚未建立特定的理论联系。
方法:通过黎曼几何学中的结果,将热扩散与流形距离明确联系起来,建立了更一般的基于热核的流形嵌入方法,称为热测地嵌入。
效果:实验结果表明,该方法在保留真实流形距离和保留玩具数据集的聚类结构方面优于现有技术。同时,该方法在具有连续和聚类结构的单细胞RNA测序数据集上表现出色,并能够对隐藏的时间点进行插值。最后,我们的一般方法的参数可以配置为与PHATE(一种先进的扩散基流形学习方法)和SNE(一种基于吸引/排斥邻域的方法,是t-SNE的基础)产生类似的结果。
Learning Rate Free Bayesian Inference in Constrained Domains
Louis Sharrock Lester Mackey Christopher Nemeth
研究问题:本文旨在提出一套新的基于粒子的算法,用于在约束域上进行采样,这些算法完全不需要学习率。
动机:现有的约束采样算法需要调整许多超参数,而我们的方法不需要。
方法:我们的方法利用凸优化中的投注理念,将约束采样视为概率测度空间上的镜像优化问题。基于这种观点,我们还为几种现有的约束采样算法(包括镜像Langevin动力学和镜像Stein变分梯度下降)引入了一个统一的框架。
效果:我们在一系列数值示例上展示了我们算法的性能,包括从单纯形目标中采样、带有公平性约束的采样以及后选择推理中的约束采样问题。我们的结果表明,我们的算法在性能上与现有的约束采样方法相当,而无需调整任何超参数。
Self-Supervised Learning with Lie Symmetries for Partial Differential Equations
Grégoire Mialon Quentin Garrido Hannah Lawrence Danyal Rehman Yann LeCun Bobak Kiani
研究问题:如何利用异构数据学习偏微分方程的通用表示。
动机:目前的算法需要针对特定设置的模拟训练数据,但人们可能希望从异构来源或来自真实动态系统观测的混乱或不完整数据中学习有用的信息。
方法:通过实施自监督学习的联合嵌入方法,从异构数据中学习偏微分方程的通用表示。
效果:该方法在回归偏微分方程系数等不变任务上优于基线方法,同时也提高了神经求解器的时间步进性能。
GeoPhy: Differentiable Phylogenetic Inference via Geometric Gradients of Tree Topologies
Takahiro Mimori Michiaki Hamada
研究问题:本文旨在解决现有基于分子进化模型的系统发育推断方法在处理树状结构变量(包括树拓扑和分支上的进化距离)的不确定性时,需要限制可能的树状结构数量的问题。
动机:考虑到系统发育推断中存在的不确定性,以及在不限制可能的树状结构数量的情况下进行推断的挑战,作者提出了一种新的、完全可微分的系统发育推断方法。
方法:作者引入了一种新颖的、基于连续几何空间中的拓扑分布的独特表示的系统发育推断方法。通过考虑设计空间和梯度估计的控制变量等实际因素,该方法能够在不限制拓扑候选者的情况下进行变分推断。
效果:实验结果表明,该方法显著优于其他考虑整个拓扑结构的近似贝叶斯方法。
Convergent Bregman Plug-and-Play Image Restoration for Poisson Inverse Problems
Samuel Hurault Ulugbek Kamilov Arthur Leclaire Nicolas Papadakis
研究问题:解决病态图像逆问题的高效迭代算法。
动机:目前的PnP方法依赖于具有Lipschitz梯度或闭式近算子的数据保真项,这在泊松逆问题上不适用。
方法:我们提出了一种基于Bregman Proximal Gradient (BPG)方法的PnP泛化方法。该方法使用Bregman散度代替欧几里得距离,以更好地捕捉问题的平滑性特性。我们还引入了特定参数化和训练的新Bregman几何学的Bregman Score Denoiser,并证明它对应于非凸势的近算子。
效果:我们在各种泊松逆问题上实施了所提出的算法,实验结果表明这些方法有效,且具有良好的恢复性能。
Bias in Evaluation Processes: An Optimization-Based Model
L. Elisa Celis Amit Kumar Anay Mehrotra Nisheeth K Vishnoi
研究问题:评估过程中的个体社会属性偏见,如招生和招聘。
动机:理解评估过程中偏见的产生机制,提供干预工具以减轻偏见。
方法:将评估过程视为从个体真实效用分布到观察到的分布的转换,并建模为损失最小化问题,受信息约束。模型有两个参数可能导致偏见:信息约束中资源-信息权衡参数和损失函数中的风险厌恶参数。
效果:通过拟合真实世界数据集验证模型,研究下游选择任务中的干预效果。这些结果有助于理解评估过程中偏见的产生,并为减轻偏见提供指导。
Calibrating Neural Simulation-Based Inference with Differentiable Coverage Probability
Maciej Falkiewicz Naoya Takeishi Imahn Shekhzadeh Antoine Wehenkel Arnaud Delaunoy Gilles Louppe Alexandros Kalousis
研究问题:现有的贝叶斯推理算法在模拟基础上的推理过程中,可能会产生过于自信的后验结果,导致不确定性量化不准确。
动机:为了解决这一问题,我们提出了一种新的方法,通过在神经网络模型的训练目标中直接引入校准项,以改善不确定性量化的准确性。
方法:我们的方法不需要特定的神经网络模型,并且与现有的计算流程兼容,可以直接进行可靠的黑箱后验推理。我们通过引入经典校准误差公式的放松形式,实现了端到端的反向传播。
效果:我们在六个基准问题上进行了实证研究,结果表明,我们的方法在覆盖范围和期望后验密度方面,比现有的方法具有竞争力或更好的效果。
A-NeSI: A Scalable Approximate Method for Probabilistic Neurosymbolic Inference
Emile van Krieken Thiviyan Thanapalasingam Jakub M. Tomczak Frank Van Harmelen Annette Ten Teije
研究问题:本文旨在解决将神经网络与符号推理相结合的问题。
动机:现有的概率神经符号学习(PNL)框架,如DeepProbLog,执行指数时间精确推理,限制了PNL解决方案的可扩展性。
方法:我们引入了近似神经符号推理(A-NeSI):一种新的PNL框架,使用神经网络进行可扩展的近似推理。A-NeSI 1)在不改变概率逻辑语义的情况下执行近似推理;2)使用背景知识生成的数据进行训练;3)可以生成预测的符号解释;4)可以在测试时保证满足逻辑约束,这在安全关键应用中至关重要。
效果:我们的实验表明,A-NeSI是第一个解决具有指数组合缩放的三个神经符号任务的端到端方法。最后,我们的实验表明,A-NeSI在没有性能损失的情况下实现了可解释性和安全性。
Relative Entropic Optimal Transport: a (Prior-aware) Matching Perspective to (Unbalanced) Classification
Liangliang Shi Haoyu Zhen Gu Zhang Junchi Yan
研究问题:本文旨在通过最优传输(OT)理论重新思考分类问题,并探索样本和标签之间的匹配概率。
动机:由于自然中的普遍存在,分类问题是机器学习中的基本问题,特别是在需求较高的长尾设置中。
方法:本文提出了一种新的最优传输变体,称为相对熵最优传输(RE-OT),它引导耦合解决方案到一个已知的先验信息矩阵。然后采用逆RE-OT进行长尾数据训练。
效果:实验结果表明,RE-OT损失与基于Softmax的交叉熵损失具有类似的形式,表明最优传输和分类之间存在紧密联系,并且在这两个学术领域之间有概念转移的可能性。在图像分类、分子分类、实例分割和表示学习等任务上进行的实验证明了其有效性。
Exact Generalization Guarantees for (Regularized) Wasserstein Distributionally Robust Models
Waïss Azizian Franck Iutzeler Jérôme Malick
研究问题:如何有效地进行不确定性下的预测和决策?
动机:现有的方法存在维度诅咒、限制在特定设置中或导致伪误差项等问题。
方法:提出了Wasserstein分布鲁棒估计器,该模型能提供吸引人的泛化保证,且不会受到维度诅咒的影响,甚至可以覆盖测试时的数据偏移。
效果:证明了这些结果可以扩展到新引入的正则化版本的Wasserstein分布鲁棒问题,并在各种任务上取得了显著改进。
Likelihood Ratio Confidence Sets for Sequential Decision Making
Nicolas Emmenegger Mojmir Mutny Andreas Krause
研究问题:如何为未知数量提供可验证的、自适应的不确定性估计,以支持序列决策算法。
动机:标准方法依赖于特定情境下的集中结果,且仅限于特定的参数化、噪声族和估计器组合。
方法:本文重新审视了基于似然的推理原理,并提出使用“似然比”来构建“任何时间有效”的置信序列,而无需在每个应用场景中进行专门处理。
效果:该方法特别适用于具有良好指定似然的问题,生成的集合始终以模型无关的方式保持规定的覆盖范围。集合的大小取决于似然比中的估计器序列选择。我们讨论了如何证明选择最佳的估计器序列,并揭示了与在线凸优化的联系,如Follow-the-Regularized-Leader等算法。为了抵消估计器的初始大偏差,我们提出了一个重加权方案,这也使得我们可以在非参数设置(如RKHS函数类)中进行部署。我们为广义线性模型提供了一种非渐近的似然比置信集大小分析,利用凸对偶性和在线学习的见解。我们在广义线性Bandit问题、生存分析和各种附加噪声分布的Bandits上展示了该方法的实际优势。
Neural Fields with Hard Constraints of Arbitrary Differential Order
Fangcheng Zhong Kyle Thomas Fogarty Param Hanji Tianhao Walter Wu Alejandro Sztrajman Andrew Everett Spielberg Andrea Tagliasacchi Petra Bosilj Cengiz Oztireli
研究问题:尽管深度学习技术在解决各种优化问题上非常流行,但在优化过程中,特别是在深度神经网络中实施硬约束的方法仍然不完善。
动机:受科学计算中丰富的无网格插值及其扩展到谱配置方法的启发,我们开发了一系列用于在神经场中实施硬约束的方法,称为受限神经场(CNF)。
方法:我们将约束条件定义为应用于神经场及其导数的线性算子。我们还为标准模型可能遇到困难的问题设计了特定的模型表示和训练策略,例如系统的条件、内存消耗以及网络被约束时的容量。
效果:我们的方法是通过对一系列真实世界应用进行演示来验证的。此外,我们还开发了一个框架,可以高效地指定模型和约束,该框架可以很容易地应用于任何需要明确满足优化过程中硬约束的下游任务。
Score-based Data Assimilation
François Rozet Gilles Louppe
研究问题:解决贝叶斯逆问题,即通过有噪声或不完整的观测数据识别可能的状态轨迹。
动机:现有的大多数算法依赖于转移动态进行推理,对于长期的时间范围或高维复杂动态系统(如海洋和大气)来说,这变得难以处理。
方法:提出基于得分的数据同化轨迹推理方法,学习基于关键洞察的状态轨迹的得分生成模型,即任意长轨迹的得分可以分解为一系列短段的得分。在训练后,使用得分模型进行推理,以非自回归的方式同时生成所有状态。
效果:我们的方法有效地解决了贝叶斯逆问题,并在各种零射击观察场景中表现出色。
Learning Energy-Based Prior Model with Diffusion-Amortized MCMC
Peiyu Yu Yaxuan Zhu Sirui Xie Xiaojian Ma Ruiqi Gao Song-Chun Zhu Ying Nian Wu
研究问题:如何改善预训练语言模型对结构化知识的利用,以提升语言理解能力。
动机:现有的预训练语言模型往往忽视了知识图谱中的有信息量的实体,而这些实体可以增强语言表示,提升语言理解能力。
方法:本文提出了一种增强的语言表示模型ERNIE,该模型同时利用大规模文本语料库和知识图谱进行训练,能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
DeepSimHO: Stable Pose Estimation for Hand-Object Interaction via Physics Simulation
Rong Wang Wei Mao Hongdong Li
研究问题:本文旨在解决从单张图像中估计手与物体交互的3D姿态的问题。
动机:现有的方法主要利用接近性线索进行建模,忽视了手必须稳定抓住物体以抵消重力并防止物体滑动或掉落的动态性质,导致估计结果不稳定。同时,在数据驱动的学习框架中,使用基于物理的推理来精炼不稳定的配置既复杂又困难。
方法:提出了一种新的深度学习流程DeepSimHO,该流程结合了前向物理模拟和后向梯度近似,通过神经网络实现。具体来说,对于基础网络初步估计的手-物体姿态,将其输入到物理模拟器中评估其稳定性。但由于非平滑接触几何和穿透,现有的可微分模拟器无法提供可靠的状态梯度。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Optimized Covariance Design for AB Test on Social Network under Interference
Qianyi Chen Bo Li LU DENG Yong Wang
研究问题:如何准确估计社交网络平台在线A/B测试的全局平均处理效应(GATE),并解决网络干扰对实验设计的挑战。
动机:由于网络干扰违反了稳定单位治疗值假设(SUTVA),导致现有的网络实验设计研究大多基于Horvitz-Thompson(HT)估计量,但这种方法需要大量数据修剪以保证无偏性,从而增加了结果估计的方差。
方法:本文提出了一种新的随机化网络实验设计方法,通过优化处理分配向量的协方差矩阵来平衡偏差和方差,以最小化估计量的均方误差(MSE)。
效果:通过大量的模拟研究,我们发现该方法在许多设置中,包括不同级别的模型误设定,都优于现有的其他方法。
Non-adversarial training of Neural SDEs with signature kernel scores
Zacharia Issa Blanka Horvath Maud Lemercier Cristopher Salvi
研究问题:训练神经网络扩散模型(Neural SDEs)用于生成序列数据的稳定性和效率问题。
动机:尽管神经网络扩散模型在非规则时间序列生成方面取得了显著效果,但其训练过程不稳定,经常出现模式崩溃,需要专门的技术如权重裁剪和梯度惩罚来缓解这些问题。
方法:本文提出了一种基于签名核的新的目标函数类别,并将其用作训练神经网络扩散模型的非对抗性目标。通过证明这种核得分的严格正确性和相应估计器的一致性,我们为最小化器提供了存在性和唯一性保证。
效果:该方法在模拟粗波动模型、预测现实世界外汇对的条件概率以及无网格生成限价订单动态等多种任务上表现出色,显著优于其他训练神经网络扩散模型的方法。
Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors
Yong Liu Chenyu Li Jianmin Wang Mingsheng Long
研究问题:如何应对真实世界中时间序列的非平稳性,这对深度预测模型构成了主要挑战。
动机:现有的模型由于复杂的系列变化而受到不断变化的时间分布的影响,我们使用现代的Koopman理论来解决非平稳时间序列的问题。
方法:通过傅立叶滤波器从复杂的非平稳系列中分离出时变和时不变组件,并设计Koopman预测器来推进各自的动态。具体来说,我们提出了Koopa,这是一个由可堆叠的块组成的新的Koopman预测器,可以学习分层动态。
效果:与最先进的模型相比,Koopa在节省77.3%的训练时间和76.0%的内存的同时,实现了竞争的性能。
Generalization bounds for neural ordinary differential equations and deep residual networks
Pierre Marion
研究问题:本文旨在通过连续深度深度学习模型——神经常微分方程(neural ODEs),推导出一类具有连续时间参数的参数化ODEs的泛化界限。
动机:利用神经常微分方程和深度残差网络之间的类比,我们的方法可以特别地为一类深度残差网络得出泛化界限。
方法:通过基于Lipschitz的论证,我们推导出了这类神经ODEs的泛化界限,该界限涉及到连续时间参数的权重矩阵之间的差异大小。
效果:数值实验表明,这种数量会如何影响神经网络的泛化能力。
CARE: Modeling Interacting Dynamics Under Temporal Environmental Variation
Xiao Luo Haixin Wang Zijie Huang Huiyu Jiang Abhijeet Sadashiv Gangan Song Jiang Yizhou Sun
研究问题:如何有效地模拟和理解复杂的动态系统,如流体动力学和分子间相互作用。
动机:现有的模型大多假设动态系统不随时间变化,但实际情况并非如此,例如环境温度会影响分子动力学。
方法:提出一种概率视角的时间变化动态模型——Context-attended Graph ODE (CARE),通过上下文变量来模拟随时间变化的环境,并使用神经网络ODE模型描述从系统状态推断出的上下文变量的动态演变。
效果:在四个数据集上的全面实验表明,与几种最先进的方法相比,提出的CARE模型具有有效性。
Directed Cyclic Graph for Causal Discovery from Multivariate Functional Data
Saptarshi Roy Raymond K. W. Wong Yang Ni
研究问题:如何利用多元函数数据发现因果关系。
动机:多元函数数据的因果关系发现在最近受到了大量关注,而现有的方法往往无法处理涉及循环的多元函数图结构。
方法:提出了一种功能性线性结构方程模型来学习多元函数数据的因果结构,该模型包含一个低维的因果嵌入空间,以保留所有相关的因果信息。
效果:通过大量的模拟研究和一个脑电图数据集的应用,证明了该方法在因果图估计方面的优越性能。
Survival Permanental Processes for Survival Analysis with Time-Varying Covariates
Hideaki Kim
研究问题:如何准确地分析生存或时间到事件数据中随时间变化协变量的非线性依赖性。
动机:传统的生存分析方法如Cox比例风险模型通过计数过程公式扩展以处理随时间变化协变量,但能够适应随时间变化的协变量的复杂机器学习方法有限。
方法:本文提出了一种非参数贝叶斯生存模型来分析时间到事件结果对随时间变化的协变量的非线性依赖性。我们专注于计算上可行的Cox过程,称为永久性过程,该过程假设危险函数的平方根由高斯过程生成,并针对具有随时间变化协变量的生存数据进行定制。
效果:我们的算法在合成和现实世界的数据上进行了评估,表明它在预测准确性方面与最先进的方法相当,同时比最先进的方法快几十到几百倍。
Beyond Unimodal: Generalising Neural Processes for Multimodal Uncertainty Estimation
Myong Chol Jung He Zhao Joanna Dipnall Lan Du
研究问题:如何有效地进行多模态数据的不确定性估计。
动机:尽管现有的方法在单模态数据的不确定性估计上已取得显著成果,但多模态数据的不确定性估计仍是一个挑战。
方法:提出一种名为“多模态神经过程”(MNPs)的新方法,该方法通过将神经过程(NPs)进行泛化,以适应多模态数据的特性。
效果:实验结果表明,该方法在多模态不确定性估计上取得了最先进的性能,同时具有对噪声样本的强鲁棒性和在分布外检测中的可靠性,且计算速度比当前最先进的多模态不确定性估计方法更快。
Variational Imbalanced Regression: Fair Uncertainty Quantification via Probabilistic Smoothing
Ziyan Wang Hao Wang
研究问题:现有的回归模型在标签分布不平衡时,准确性和不确定性估计往往不足。
动机:提出一种新的概率深度学习模型,即变分不平衡回归(VIR),以解决不平衡回归问题,并自然地产生合理的不确定性估计。
方法:VIR模型与典型的假设独立同分布表示的变分自动编码器不同,借用了具有相似回归标签的数据来计算潜在表示的变分分布;此外,与只产生点估计的确定性回归模型不同,VIR预测整个正态逆伽马分布,并通过调整相关共轭分布对不平衡数据进行概率重加权,从而提供更好的不确定性估计。
效果:在几个真实世界数据集上的实验表明,VIR模型在准确性和不确定性估计方面均优于最先进的不平衡回归模型。
Many-body Approximation for Non-negative Tensors
Kazu Ghalamkari Mahito Sugiyama Yoshinobu Kawahara
研究问题:提出一种新颖的非负张量分解方法,称为多体近似法。
动机:传统的分解方法假设表示具有低秩性,导致全局优化和目标秩选择困难。
方法:通过张量的基于能量的建模来避免这些问题,其中张量和其模式分别对应于概率分布和随机变量。我们的模型可以通过考虑变量之间的交互(即模式)在KL散度最小化方面进行全局优化,这比秩更直观可调整。此外,我们将模式之间的交互可视化为张量网络,并揭示了多体近似法与低秩近似法之间的非平凡关系。
效果:我们在张量补全和近似方面展示了该方法的有效性。
Sparse Deep Learning for Time Series Data: Theory and Applications
Mingxuan Zhang Yan Sun Faming Liang
研究问题:本文旨在解决现有稀疏深度学习在处理依赖数据(如时间序列和自然语言处理中的序列数据)时的问题。
动机:大多数现有的稀疏深度学习研究都集中在独立同分布的观察问题上,对于依赖数据的问题,如时间序列数据,研究甚少。
方法:通过研究依赖数据的稀疏深度理论,作者提出稀疏循环神经网络(RNNs)可以一致估计,其预测在适当假设下呈渐进正态分布,从而正确量化预测不确定性。
效果:实验结果表明,该方法在预测不确定性量化方面优于最先进的方法,如一致性预测。此外,该方法能准确确定时间序列数据的自回归阶数,并在大规模模型压缩方面超越现有方法。
Disentanglement via Latent Quantization
Kyle Hsu Will Dorrell James C. R. Whittington Jiajun Wu Chelsea Finn
研究问题:如何利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
AdaVAE: Bayesian Structural Adaptation for Variational Autoencoders
Paribesh Regmi Rui Li
研究问题:现有的变分自动编码器(VAEs)的生成模型和对应的推理模型的网络结构在模型的生成性能中起着关键作用,但这些强大的网络结构是预先设定的,需要大量的计算来调整以适应给定的数据。
动机:现有的VAE正则化方法在很大程度上忽视了网络结构的重要性,无法防止深度VAE模型中的过拟合。
方法:我们提出了一个贝叶斯推理框架,该框架可以自动调整VAE的网络结构以适应数据,并防止随着层数的增加而出现过拟合。我们使用贝塔过程对隐藏层的数量进行建模,以推断出最有可能的编码/解码网络深度。我们还进行了逐层的dropout正则化处理。
效果:实验表明,我们的推理框架有效地防止了浅层和深层VAE模型的过拟合,取得了最先进的性能。我们的框架可以与不同类型的VAE主干网络兼容,并可以应用于各种VAE变体,从而进一步提高其性能。
Causal discovery from observational and interventional data across multiple environments
Adam Li Amin Jaber Elias Bareinboim
研究问题:如何在多领域收集的数据中学习非马尔可夫系统的因果结构。
动机:现有的方法只能在单个领域中从观察和实验数据中学习因果图等价类,对于多领域的数据则无法处理。
方法:通过使用来自不同领域的观察和干预数据,利用S-Markov属性定义一种新的约束基础的因果发现算法S-FCI。
效果:该算法被证明是有效的,并包含了现有的约束基础的因果发现算法。
Neural Lyapunov Control for Discrete-Time Systems
Junlin Wu Andrew Clark Yiannis Kantaros Yevgeniy Vorobeychik
研究问题:如何为非线性系统找到稳定的控制策略。
动机:虽然线性系统的稳定控制方法已经成熟,但非线性系统的稳定控制仍是一个重大挑战。
方法:提出一种学习离散时间系统中的神经Lyapunov控制的方法,通过混合整数线性规划验证离散时间Lyapunov稳定性条件,并利用特定结构计算已验证的子层级集,同时采用启发式梯度方法快速找到反例以加速Lyapunov函数的学习。
效果:在四个标准基准测试中,该方法显著优于最先进的基线。例如,在路径跟踪基准测试中,该方法在运行时间和吸引区域大小方面比最近的神经Lyapunov控制基线提高了一个数量级,并且在四个基准测试中的两个(cartpole和PVTOL)中,这是第一个返回可证明稳定控制器的自动化方法。
DiffVL: Scaling Up Soft Body Manipulation using Vision-Language Driven Differentiable Physics
Zhiao Huang Feng Chen Yewen Pu Chunru Lin Hao Su Chuang Gan
研究问题:如何让非专家用户有效地描述软体操作任务,以便于物理仿真器进行求解?
动机:现有的优化目标需要专业知识才能编写,限制了从非专家用户那里收集大量自然问题的能力。
方法:我们提出了DiffVL方法,该方法允许非专家用户通过视觉和自然语言的组合来描述软体操作任务,并利用大型语言模型将任务描述转化为机器可解释的优化目标。
效果:我们开发了GUI工具,使非专家用户可以指定100个基于真实生活软体操作的在线视频任务。实验证明,这种方法能够有效地帮助物理仿真器解决这些长周期的多阶段任务,这是以前的基线方法难以解决的问题。
Dense-Exponential Random Features: Sharp Positive Estimators of the Gaussian Kernel
Valerii Likhosherstov Krzysztof Marcin Choromanski Kumar Avinava Dubey Frederick Liu Tamas Sarlos Adrian Weller
研究问题:如何有效地近似由高斯或softmax核引发的线性算子。
动机:传统的随机特征(RFs)方法可以无偏地近似这种算子的结果,但其参数无法优化以降低近似的方差。
方法:提出参数化、正、非三角的RFs来近似高斯和softmax核。这些新方法的参数可以被优化以降低近似的方差,并且最优解可以用闭式表示。
效果:实验表明,这种方法在实践中可以显著降低方差(达到e^{10}次方或更高),并在核回归任务中优于先前的方法。此外,利用这种方法,我们还提出了FAVOR#,一种在Transformers中进行自注意力近似的方法。实验证明,FAVOR#在语音建模和自然语言处理方面优于其他随机特征方法。
Differentially Private Statistical Inference through $\beta$-Divergence One Posterior Sampling
Jack Jewson Sahra Ghalebikesabi Christopher C. Holmes
研究问题:如何在进行涉及敏感数据的统计分析时,在不泄露任何参与者隐私的情况下发布结果。
动机:目前的隐私保护方法通常需要对参数估计或估计过程直接注入噪声,而不是人为引入扰动。
方法:提出一种名为βD-Bayes的后验采样方案,从针对模型和数据生成过程最小化β-散度的广义后验中进行采样,以实现更通用且无需改变底层模型的私有估计。
效果:实验表明,βD-Bayes能在相同的隐私保证下产生更精确的推理估计,并能进一步促进复杂分类器和连续回归模型(如神经网络)的差分隐私估计,这是目前后验采样所无法实现的。
Do Not Marginalize Mechanisms, Rather Consolidate!
Moritz Willig Matej Zečević Devendra Singh Dhami Kristian Kersting
研究问题:如何简化和压缩大规模结构因果模型(SCM)以适应日益增长的数据需求。
动机:随着系统规模的增大,变量数量和交互复杂性也随之增加,使得SCM变得复杂且难以分析,特别是在机器学习和人工智能领域。
方法:引入“整合因果关系”的概念来转换大规模的SCM,同时保留一致的干预行为。
效果:整合是一种强大的简化SCM的方法,可以降低计算复杂度,并提升整合后的SCM的泛化能力。
Neural Lad: A Neural Latent Dynamics Framework for Times Series Modeling
Ting Li Jianguo Li Zhanxing Zhu
研究问题:现有的神经ODE预测模型存在两个缺点,一是只能通过观察信号的局部变化对潜在状态进行线性变换控制,可能不够充分;二是在时间序列预测任务中缺乏捕获内在周期性的能力。
动机:为了克服这两个问题,提出了一种新的神经ODE框架,称为Neural Lad,这是一种神经潜在动力学模型,其中潜在表示通过增强观察信号变化和季节性趋势特征的ODE进行演化。
方法:我们将输入信号的局部变化以注意力的方式融入到潜在动态中,并设计了一个基于基展开的残差架构来描述潜在动态中的周期性。为了适应多元时间序列预测,我们通过学习多个时间序列之间的自适应关系来扩展Neural Lad。
效果:实验表明,我们的模型在各种数据集上可以取得比现有的神经ODE家族和变压器变体更好或相当的性能。值得注意的是,Neural Lad的实证优势在短期和长期预测中都是一致的,适用于单变量、多变量甚至不规则采样的时间序列。
Distribution-Free Model-Agnostic Regression Calibration via Nonparametric Methods
Shang Liu Zhongze Cai Xiaocheng Li
研究问题:本文考虑回归模型的不确定性量化问题,特别是针对预测模型分位数的特征化个体校准目标。
动机:尽管这种目标在下游任务如新闻供应商成本等方面具有充分的动机,但现有方法大多基于启发式且缺乏个体校准方面的统计保证。
方法:我们提出了简单的非参数校准方法,这些方法与底层预测模型无关,并具有良好的计算效率和统计一致性。
效果:我们的分析将非参数分析和覆盖数论证相结合,为提出的校准方法的校准误差建立了上下界。从技术上讲,这种方法在维度灾难和不可能的个体校准方面提供了新的理论见解,并在有限样本条件下实现了个体校准和一致保证。
Near-Linear Time Algorithm for the Chamfer Distance
Ainesh Bakshi Piotr Indyk Rajesh Jayaram Sandeep Silwal Erik Waingarten
研究问题:如何高效地计算两个点集之间的Chamfer距离。
动机:Chamfer距离是衡量点云间相似性的重要指标,但现有的计算方法时间复杂度高,不适用于大规模数据集。
方法:提出一种$(1+\epsilon)$近似的Chamfer距离快速算法,运行时间为$O(nd \log (n)/\epsilon^2)$。
效果:实验证明该算法在大规模高维数据集上既准确又快速,为分析大规模高维点云提供了新的途径。
History Filtering in Imperfect Information Games: Algorithms and Complexity
Christopher Solinas Doug Rebstock Nathan R. Sturtevant Michael Buro
研究问题:如何有效地在不完美信息环境中进行深度有限搜索和子游戏分解。
动机:尽管子游戏分解已被广泛应用于深度有限搜索,但其计算复杂性和可解性尚未得到明确分析。
方法:通过引入并分析子游戏分解中历史记录的过滤和生成算法,确定其计算复杂性和可解性。
效果:实验证明,这种方法可以有效提高深度有限搜索在不完美信息环境下的效率,并在“Oh Hell”等纸牌游戏中表现出良好的扩展性。
Revisiting Implicit Differentiation for Learning Problems in Optimal Control
Ming Xu Timothy L Molloy Stephen Gould
研究问题:如何通过隐函数定理(IFT)对非凸、约束的离散时间最优控制(COC)问题进行最佳轨迹微分。
动机:现有的方法需要解决一个关于轨迹导数的微分KKT系统,并通过解决辅助的线性二次调节器(LQR)问题来提高效率。相比之下,我们直接评估应用拉格朗日乘子项变量消除后的矩阵方程。
方法:我们直接评估从应用拉格朗日乘子项的变量消除后产生的矩阵方程。通过适当考虑结果方程中各项的结构,我们证明了轨迹导数与时间步长的线性缩放关系。此外,我们的方法易于并行化,与模型大小相比具有显著改善的可扩展性,可以直接计算向量-雅可比积,并与先前的工作相比具有改进的数值稳定性。
效果:我们在合成基准测试和四个具有挑战性的学习演示基准测试上评估了我们的方法,包括一个6自由度机动四旋翼飞行器和一个6自由度的火箭动力着陆。
CrossGNN: Confronting Noisy Multivariate Time Series Via Cross Interaction Refinement
Qihe Huang Lei Shen Ruixin Zhang Shouhong Ding Binwu Wang Zhengyang Zhou Yang Wang
研究问题:现有的多元时间序列预测技术在处理时间维度的突发噪声和变量间的异质性上存在不足。
动机:为解决这些问题,我们提出了CrossGNN模型,通过提取更清晰趋势和较弱噪声的时间尺度,以及利用不同变量间的同质性和异质性,来改进多元时间序列预测。
方法:我们设计了一个自适应多尺度标识器(AMSI)来减少时间维度的噪声,并构建了多尺度时间序列。同时,我们提出了跨尺度GNN和跨变量GNN来提取更清晰的趋势和较弱噪声的时间尺度,以及利用变量间的同质性和异质性。
效果:实验结果表明,我们的CrossGNN模型在8个真实世界的多元时间序列数据集上的表现优于现有的最佳方法。
BayesDAG: Gradient-Based Posterior Inference for Causal Discovery
Yashas Annadani Nick Pawlowski Joel Jennings Stefan Bauer Cheng Zhang Wenbo Gong
研究问题:本文旨在解决贝叶斯因果发现中的计算挑战,即如何从观察数据中推断出因果模型的后验分布,并量化认识不确定性。
动机:尽管现有的方法在高效的后验推理上取得了一定的进展,但它们要么局限于线性因果模型的节点排列矩阵变分推理,导致推理精度降低,要么通过受DAG正则化器约束的邻接矩阵连续松弛来确保结果图是DAGs,但这无法保证结果图是DAGs。
方法:本文提出了一种基于随机梯度马尔科夫链蒙特卡洛(SG-MCMC)和变分推理(VI)的组合的可扩展贝叶斯因果发现框架,该框架直接从后验中采样DAGs,无需任何DAG正则化,同时绘制函数参数样本,适用于线性和非线性因果模型。
效果:实证评估表明,本文的方法在合成和真实世界数据集上都优于最先进的基线方法。
GRAND-SLAMIN’ Interpretable Additive Modeling with Structural Constraints
Shibal Ibrahim Gabriel Isaac Afriat Kayhan Behdin Rahul Mazumder
研究问题:如何提高广义可加模型(GAMs)的灵活性和解释性,同时保持计算效率和统计特性?
动机:现有的方法在处理高阶交互作用时会导致计算挑战,且难以保证模型的稀疏性和解释性。
方法:提出一种灵活的GRAND-SLAMIN框架,通过在端到端的方式学习具有交互作用的稀疏GAMs。利用稀疏反向传播进行优化,并针对任何可微分的损失函数进行GPU兼容操作。
效果:实验结果表明,该方法在性能、变量选择和可扩展性方面优于其他流行的工具包,同时保持了与非解释性黑箱模型相当的预测精度。
Deep Momentum Multi-Marginal Schrödinger Bridge
Tianrong Chen Guan-Horng Liu Molei Tao Evangelos Theodorou
研究问题:如何利用粗时间间隔的未标记样本重建种群动态。
动机:现有的流模型或薛定谔桥模型在推断样本轨迹时,要么无法考虑潜在的随机性,要么过于刚性。
方法:将薛定谔桥扩展到相位空间,提出深度动量多边缘薛定谔桥(DMSB)模型,这是一种新的计算框架,用于学习满足时间位置边缘约束的随机系统的平滑测值样条。
效果:实验表明,该算法在合成数据集和真实世界的单细胞RNA序列数据集上均显著优于基线方法。此外,当存在不可访问的真实速度时,该方法还可以合理地从位置快照中重建速度分布的演变。
False Discovery Proportion control for aggregated Knockoffs
Alexandre Blain Bertrand Thirion Olivier Grisel Pierre Neuvial
研究问题:如何在高维数据中进行有效的变量选择,同时控制假阳性发现的比例。
动机:在诸如脑成像或基因组学等科学领域中,考虑过多的变量会导致模型质量低下和成本高昂,因此需要对假阳性进行统计保证。
方法:提出了一种新的KOPI方法,该方法基于Knockoffs进行推断,可以控制假发现的比例。这种方法还依赖于一种新型的聚合方法,以解决与经典Knockoffs推断相关的不良随机性问题。
效果:在各种模拟设置中展示了对FDP的控制和相对于现有基于Knockoffs的方法的显著功率增益,并在脑成像数据上实现了良好的敏感性/特异性权衡。
Diffusion Schrödinger Bridge Matching
Yuyang Shi Valentin De Bortoli Andrew Campbell Arnaud Doucet
研究问题:解决传输问题,即找到将一个给定分布映射到另一个的地图,在机器学习中有广泛应用。
动机:受生成模型启发的新型质量传输方法最近被提出,如去噪扩散模型(DDMs)和流匹配模型(FMMs),它们通过随机微分方程(SDE)或常微分方程(ODE)实现这种传输。然而,虽然在许多应用中希望近似确定性的动态最优传输(OT)图,但DDMs和FMMs并不能保证提供的传输接近OT图。
方法:我们引入了迭代马尔可夫拟合(IMF),这是一种新的解决SB问题的方法,以及扩散薛定谔桥匹配(DSBM),这是一种计算IMF迭代的新数值算法。DSBM显著改善了以前的SB数值,并作为特殊/极限情况恢复各种最近的传输方法。
效果:我们在各种问题上展示了DSBM的性能。
Synthetic Combinations: A Causal Inference Framework for Combinatorial Interventions
Abhineet Agarwal Anish Agarwal Suhas Vijaykumar
研究问题:如何在存在异构单元和多种干预措施的情况下,学习单元特定的潜在结果。
动机:在诸如因子设计实验和推荐引擎等应用中,选择一种干预措施组合是一个自然产生的问题。由于单元数量和干预措施数量的增长,运行大量实验来估计各种参数可能是昂贵且/或不可行的。此外,观察数据可能存在混淆,即一个单元是否出现在某种干预组合下与其在该组合下的潜在结果有关。
方法:我们研究了一个新模型,该模型在单元和干预措施组合之间施加潜在的结构。具体来说,我们假设潜在结果在单元间具有相似性(即潜在结果矩阵的秩约为r),并且干预措施组合的交互方式是有规律的(即潜在结果的傅里叶展开系数大约为s稀疏)。尽管存在未观察到的混淆,但我们建立了对所有N×2^p参数的识别。我们提出了一种估计程序——合成组合,并建立了观测模式精确条件下的有限样本一致性。
效果:我们表明,给定总量为poly(r)×(N+s^2p)次的观察,合成组合能够一致地估计出单元特定潜在结果。相比之下,先前的方法没有利用单元和组合之间的结构,其样本复杂度随着min(N×s^2p, r×(N+2^p))的增长而变差。
Learning World Models with Identifiable Factorization
Yu-Ren Liu Biwei Huang Zhengmao Zhu Honglong Tian Mingming Gong Yang Yu Kun Zhang
研究问题:如何有效地提取和分离高维度、嘈杂和非平稳环境中的多种信息,以进行高效的强化学习。
动机:在这类环境中,不同种类的信息共存,如何有效提取和区分这些信息是一个挑战性的问题。
方法:本文提出了IFactor框架,通过动作和奖励的互动,对四种不同的潜在状态变量进行建模,捕捉强化学习系统中的各种信息。
效果:实验证明,该方法能准确识别出真实的潜在变量,并在DeepMind控制套件和RoboDesk等变体中表现出优于基线的性能。
Identification of Nonlinear Latent Hierarchical Models
Lingjing Kong Biwei Huang Feng Xie Eric Xing Yuejie Chi Kun Zhang
研究问题:如何从观察数据中识别潜在的变量和因果关系结构,特别是在观察到的变量由因果相关的潜在变量生成且关系非线性的情况下。
动机:在许多涉及生物数据、医学数据以及图像和语言等非结构化数据的实际应用场景中,从观察数据中识别潜在的变量和因果关系结构至关重要。然而,当观察到的变量由因果相关的潜在变量生成且关系非线性时,这项任务可能极具挑战性。
方法:本研究探讨了非线性潜在分层因果关系模型中的识别问题,其中观察到的变量由一组因果相关的潜在变量生成,而某些潜在变量可能没有观察到的子变量。我们证明了在温和的假设下可以实现因果关系结构和潜在变量(最多可逆变换)的可识别性:在因果关系结构上,我们允许图中任意一对变量之间的多条路径,这放宽了先前工作中的潜在树状假设;在结构函数上,我们允许一般非线性和多维连续变量,缓解了现有工作的参数假设。
效果:我们首先开发了一种新颖的识别标准,为基本潜在变量模型提供了可识别性的保证。利用这一标准,我们表明通过显式构造估计过程,可以渐近地识别分层模型的因果关系结构和潜在变量。据我们所知,我们的研究是首次为非线性潜在分层模型中的原因结构和潜在变量建立可识别性保证的工作。
Flow Factorized Representation Learning
Yue Song T. Anderson Keller Nicu Sebe Max Welling
研究问题:如何实现一种有用的方式来分解表示,以适应变化的真实因子。
动机:现有的分解和等变表示学习方法在实际应用中往往无法有效地分离所有现实感兴趣的因素。
方法:提出一种新的结构化表示学习方法——流分解表示学习,通过引入一个生成模型来定义不同的输入转换,每个潜在流都是由学习的势能的梯度场遵循动态最优传输生成的。
效果:实验结果表明,该方法在标准表示学习基准上实现了更高的似然性,同时更接近近似等变模型。此外,该方法学习的转换具有灵活的可组合性,并能扩展到新数据,显示出接近有用分解表示学习目标的鲁棒性和泛化能力。
Managing Temporal Resolution in Continuous Value Estimation: A Fundamental Trade-off
Zichen Zhang Johannes Kirschner Junxi Zhang Francesco Zanini Alex Ayoub Masood Dehghan Dale Schuurmans
研究问题:本文旨在解决强化学习和最优控制中,观测值在固定时钟周期上以离散时间点到达的默认假设对连续时间系统的影响。
动机:许多应用涉及连续时间系统,理论上可以管理时间离散化。然而,现有理论尚未充分描述时间离散化对强化学习方法的影响,更详细的分析可能会揭示提高数据效率的机会。
方法:通过对LQR系统的蒙特卡洛策略评估进行分析,揭示了近似和价值估计中的统计误差之间的基本权衡。
效果:研究发现,对于有限的数据,管理时间分辨率可以显著提高LQR系统的策略评估效率。在数值模拟的LQR实例和非线性连续控制的常规RL基准测试中,我们证明了这种权衡的效果。
Neural Frailty Machine: Beyond proportional hazard assumption in neural survival regressions
Ruofan Wu Jiawei Qiao Mingzhe Wu Wen Yu Ming Zheng Tengfei LIU Tianyi Zhang Weiqiang Wang
研究问题:开发一种强大且灵活的神经网络建模框架,用于生存回归分析。
动机:现有的生存模型无法有效处理非线性协变量依赖,而神经网络架构的强大近似能力可以解决这个问题。
方法:提出了神经脆弱机器(NFM)框架,利用生存分析中的乘性脆弱概念扩展比例风险假设,同时利用神经网络架构处理非线性协变量依赖。
效果:通过理论和实验验证了所提出的NFM模型的优越性,并在6个不同规模的基准数据集上进行了实验评估,结果表明NFM模型的预测性能与或超过了最先进的生存模型。
Optimal Treatment Regimes for Proximal Causal Learning
Tao Shen Yifan Cui
研究问题:政策制定者在从观察数据中进行因果推断和决策时,常见的问题是测量的协变量不足以解释所有混淆来源。
动机:最近提出的近因果推理框架显示,现实生活中丰富的代理变量可以用来识别因果关系,从而促进决策。
方法:基于此,我们提出了一种基于所谓的结果和治疗混淆桥的新的最佳个体化治疗方案。
效果:理论保证包括识别、优越性、超额价值边界和估计方案的一致性。此外,我们还通过数值实验和真实数据应用展示了所提出的最佳方案。
Designing Robust Transformers using Robust Kernel Density Estimation
Xing Han Tongzheng Ren Tan Minh Nguyen Khai Nguyen Joydeep Ghosh Nhat Ho
研究问题:现有的Transformer模型主要关注预测精度和计算成本,对对抗性攻击和数据污染的鲁棒性关注不足。
动机:通过重新解释自注意力机制为非参数核密度估计器,将经典的鲁棒核密度估计方法应用于开发新的抵抗对抗性攻击和数据污染的Transformer类。
方法:首先提出在计算自注意力操作时降低核希尔伯特空间(RKHS)中的异常值权重的方法。然后利用中位数-均值原则获得另一种有效方法,显著提高语言建模和时间序列分类任务的性能和鲁棒性。
效果:实验结果表明,这些方法在图像数据受到对抗性攻击时的表现优于现有最先进的方法。并且可以与现有的Transformer结合,增强其鲁棒性,有望影响各种应用。
iSCAN: Identifying Causal Mechanism Shifts among Nonlinear Additive Noise Models
Tianyu Chen Kevin Bello Bryon Aragam Pradeep Kumar Ravikumar
研究问题:如何识别两个或更多相关数据集中变量的因果机制变化,而无需估计每个SCM的完整DAG结构。
动机:在许多情况下,我们的目标是定位相关数据集之间的因果机制变化,而不是学习单个数据集的完整因果结构。
方法:本文提出了一种基于非线性加性噪声模型(ANMs)的方法,通过混合分布得分函数的雅可比矩阵来识别变化。一旦确定了变化的变量,就可以利用最近的研究来估计这些变量的结构差异。
效果:通过对合成和真实世界数据的实验,展示了该方法的适用性。开源代码可在 https://github.com/kevinsbello/iSCAN 上公开获取。
Efficient Robust Bayesian Optimization for Arbitrary Uncertain inputs
Lin Yang Junlong Lyu Wenlong Lyu Zhitang Chen
研究问题:本文旨在解决贝叶斯优化中由于输入不确定性导致的性能波动问题。
动机:在挑战性的贝叶斯优化任务中,由于优化过程中的随机性(如机械误差、执行噪声或上下文变化性),输入存在不确定性,这会导致最终结果的性能大幅波动。
方法:本文提出了一种新的鲁棒贝叶斯优化算法AIRBO,该算法通过赋予高斯过程最大均值差异(MMD)的能力,并进一步通过Nystrom近似加速后验推理,直接对任意分布的不确定输入进行建模。
效果:在MMD估计误差下建立了严格的理论遗憾界限,并在合成函数和实际问题上的大量实验表明,该方法能够处理各种输入不确定性,并实现最先进的性能。
Markovian Sliced Wasserstein Distances: Beyond Independent Projections
Khai Nguyen Tongzheng Ren Nhat Ho
研究问题:现有的切比雪夫距离由于独立均匀随机投影方向导致冗余投影,且最优性优化无法保证其度量性。
动机:为了解决这个问题,我们提出了一种新的SW距离家族——马尔科夫切片Wasserstein(MSW)距离,它在投影方向上施加了一级马尔科夫结构。
方法:我们通过指定马尔科夫结构(包括先验分布、转移分布以及燃烧和细化技术)来讨论MSW的各种成员。我们还研究了MSW的理论性质,包括拓扑性质(度量性、弱收敛性和与其他距离的关联)、统计性质(样本复杂度和蒙特卡洛估计误差)以及计算性质(计算复杂度和内存复杂度)。
效果:最后,我们在各种应用中比较了MSW距离与之前的SW变体,如梯度流、颜色转移和深度生成模型,以证明MSW的优秀性能。
Energy-Based Sliced Wasserstein Distance
Khai Nguyen Nhat Ho
研究问题:提出一种无参数的能量基分布作为切片分布,以解决两种现有方法在切片Wasserstein距离中的限制。
动机:现有的两种选择切片分布的方法存在局限性,如固定先验分布的非信息性,优化最佳分布的成本和不稳定性等。
方法:设计切片分布为无参数的能量基分布,其密度与投影一维Wasserstein距离的能量函数成比例,从而得到一种新的切片Wasserstein变体——能量基础切片Wasserstein(EBSW)距离。
效果:通过重要性采样、采样重要性重采样和马尔科夫链方法研究了EBSW的距离的拓扑、统计和计算性质。实验结果表明,EBSW在点云梯度流、颜色转移和点云重建等任务上表现出良好的性能。
Estimating Riemannian Metric with Noise-Contaminated Intrinsic Distance
Jiaming Qiu Xiongtao Dai
研究问题:如何通过学习数据点之间相似性度量所引发的底层数据空间的黎曼流形结构来扩展度量学习。
动机:当前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Gradient-Free Kernel Stein Discrepancy
Matthew A Fisher Chris J. Oates
研究问题:本文旨在解决复杂统计模型中稳定数值计算导数的问题,以使斯坦因差异法变得实用。
动机:对于复杂的统计模型,稳定计算导数需要专门的算法开发,使得斯坦因差异法在实际应用中变得困难。
方法:本文引入了一系列无需导数的非标准斯坦因差异法,并建立了收敛检测和控制的充分条件。
效果:该方法被成功应用于采样和变分推理,为处理复杂统计模型提供了新的工具。
Fast Exact Leverage Score Sampling from Khatri-Rao Products with Applications to Tensor Decomposition
Vivek Bharadwaj Osman Asif Malik Riley Murray Laura Grigori Aydin Buluc James Demmel
研究问题:如何从几个矩阵的Khatri-Rao积中随机抽样行,以符合其杠杆分数的精确分布?
动机:现有的方法在处理具有数千万行的大矩阵时,无法有效且高效地抽样。
方法:提出一种数据结构,根据Khatri-Rao积的杠杆分数的精确分布进行随机抽样。该方法的时间复杂度为Khatri-Rao积的高度的对数和列数的平方,空间开销最多为输入矩阵的大小。
效果:实验证明,该方法在处理十亿级稀疏张量和合成数据时,比最新的最先进方法具有更低的复杂度和更高的精度。
PCF-GAN: generating sequential data via the characteristic function of measures on the path space
Hang Lou Siran Li Hao Ni
研究问题:如何利用生成对抗网络(GANs)生成高保真时间序列数据,特别是捕捉时间序列数据的联合概率分布的时序依赖性。
动机:由于难以捕获时间序列数据引起的联合概率分布的时序依赖性,因此使用GANs生成高保真时间序列数据仍然是一个挑战。
方法:提出了一种名为PCF-GAN的新型GAN,将路径特征函数(PCF)作为时间序列分布的原则表示纳入判别器中,以提高其生成性能。同时,建立了PCF距离的理论基础,并设计了PCF的有效初始化和优化方案,以增强判别能力和提高训练效率。此外,通过将自编码器结构通过顺序嵌入集成到PCF-GAN中,提供了额外的重建功能。
效果:在各种数据集上的大量数值实验表明,PCF-GAN在生成和重建质量方面始终优于最先进的基线方法。
SNEkhorn: Dimension Reduction with Symmetric Entropic Affinities
Hugues Van Assel Titouan Vayer Rémi Flamary Nicolas Courty
研究问题:如何利用加权图对数据集中样本的相似性进行编码,并保证对异构采样密度的鲁棒性?
动机:现有的方法在处理异构采样密度时会违反行恒定熵和随机性属性,因此需要一种自然对称化的方法来提高效率。
方法:将熵亲和性(EAs)视为最优传输问题,通过使用双上升法进行自然对称化计算。
效果:新的亲和矩阵在聚类性能方面具有优势,同时有效地控制每行的熵,使其对不同的噪声水平具有鲁棒性。新提出的DR算法SNEkhorn利用这种新的亲和矩阵,在合成数据集和真实世界数据集上都表现出明显优于现有方法的性能。
Kernel Stein Discrepancy thinning: a theoretical perspective of pathologies and a practical fix with regularization
Clement Benard Brian Staber Sébastien Da Veiga
研究问题:本文旨在对斯坦因精简算法进行理论分析,以解决其在实践中可能产生的问题。
动机:斯坦因精简是一种有前景的MCMC后处理方法,但其在实际应用中存在一些问题,如偏差修正不足、收敛速度慢等。
方法:通过理论分析,明确了这些问题的产生机制,并提出了改进策略。同时,引入了正则化斯坦因精简算法来缓解这些问题。
效果:理论保证和大量实验表明,所提出的算法具有高效率。该算法的Python和JAX实现可在https://gitlab.com/drti/kernax 获取。
Sharp Calibrated Gaussian Processes
Alexandre Capone Sandra Hirche Geoff Pleiss
研究问题:现有的高斯过程在工程和科学应用中被广泛使用,但其不确定性估计不满足频率主义者的保证,并且在实践中可能被误校准。
动机:为了解决高斯过程的不确定性估计问题,我们提出了一种新的校准方法,该方法通过使用不同的超参数集来生成预测分位数,以满足经验校准约束。
方法:我们的方法受到简单高斯过程后验方差的启发,但使用了不同的超参数集来满足经验校准约束。这种方法比现有的方法更具灵活性,我们对其进行优化以产生紧密的预测分位数。
效果:实验结果表明,在合理的假设下,我们的方法能够产生一个校准模型。此外,当我们将其用于校准回归时,它比现有方法在锐度上表现更好。
Solving Inverse Physics Problems with Score Matching
Benjamin Holzschuh Simona Vegetti Nils Thuerey
研究问题:本文旨在解决涉及物理系统时间演化的逆问题。
动机:利用扩散模型的最新进展,通过结合近似逆物理模拟器和学习到的校正函数,逐步将系统当前状态向过去移动。
方法:训练学习的校正函数使用单步损失等效于得分匹配目标,而递归预测训练过程中的较长轨迹部分则与相应概率流的最大似然训练相关。
效果:与其他标准去噪得分匹配、隐式得分匹配以及全学习基线相比,该算法在各种逆物理问题上具有明显优势。所得逆解算器具有出色的准确性和时间稳定性,并且与其他学习逆解算器不同,允许对解决方案的后验进行采样。
K-Nearest-Neighbor Local Sampling Based Conditional Independence Testing
Shuai Li Yingjie Zhang Hongtu Zhu Christina Dan Wang Hai Shu Ziqi Chen Zhuoran Sun Yanfeng Yang
研究问题:条件独立测试是统计和机器学习中的基本任务,但其有效性受到高维条件变量和有限数据样本的挑战。
动机:本文提出了一种新的测试方法,以解决这些挑战,增强对I型错误的控制,同时在备择假设下实现高功率。
方法:该方法引入了一种计算效率高的基于分类器的互信息估计器,能够捕捉变量之间的复杂依赖结构。为了近似编码零假设的分布,采用了$k$-最近邻局部采样策略。这种方法的一个重要优点是无需对分布形式或特征依赖性进行假设。此外,它消除了为估计的互信息推导渐近零分布的需要,并避免了数据集分割,使其特别适合小数据集。
效果:该方法展示了对I型错误的渐近控制和对所有备择假设的一致性。使用合成和真实数据的广泛分析突出了所提出测试的计算效率。此外,即使在高维条件集的情况下,它也在I型和II型错误方面优于现有的最先进方法。此外,该方法在存在重尾数据的情况下表现出鲁棒性。
Optimization or Architecture: How to Hack Kalman Filtering
Ido Greenberg Netanel Yannay Shie Mannor
研究问题:本文旨在比较非线性架构(如神经网络)和标准的线性卡尔曼滤波器(KF),并优化它们以使KF具有竞争力。
动机:传统的非线性滤波方法将非线性架构与参数优化方法混合在一起进行评估,导致实验结论存在缺陷。
方法:提出优化卡尔曼滤波器(OKF),对非线性模型和参考KF模型进行类似的优化,使其具有竞争力。
效果:理论和实证研究表明,在各种问题上,OKF可以替代标准KF,并在现实世界的系统中通过更新参数来使用。
Formulating Discrete Probability Flow Through Optimal Transport
Pengze Zhang Hubery Yin Chen Li Xiaohua Xie
研究问题:本文旨在建立离散扩散模型的概率流基本理论。
动机:连续扩散模型通常显示出确定性概率流,而离散扩散模型则否。因此,需要为离散扩散模型建立基本理论。
方法:首先证明在一定条件下,连续概率流是蒙热最优传输映射,然后提出离散情况下的等效证据。根据这些发现,定义与最优传输原则一致的离散概率流。最后,利用新的定义,提出一种新的采样方法,该方法在生成更确定的结果方面超越了以前的离散扩散模型。
效果:在合成玩具数据集和CIFAR-10数据集上的大量实验验证了所提出的离散概率流的有效性。代码已在GitHub上发布。
Cause-Effect Inference in Location-Scale Noise Models: Maximum Likelihood vs. Independence Testing
Xiangyu Sun Oliver Schulte
研究问题:因果发现的根本问题是因果关系推断,即学习两个随机变量之间的正确因果关系。
动机:通过将效果建模为其原因和噪声项的函数,可以充分利用生成函数类的假设,从而实现了显著的进展。然而,当噪声分布形式被用户错误指定时,基于最大化似然的LSNM模型选择的准确性会急剧下降。
方法:我们提出了一种替代方案,即通过残差独立性测试进行因果模型选择,这种方法对噪声误指定和误导的条件方差更具鲁棒性。
效果:实验结果表明,当噪声分布在反因果关系方向上的条件方差小于因果关系方向上的条件方差时,该方法能够更好地处理噪声误指定的问题。
A Heavy-Tailed Algebra for Probabilistic Programming
Feynman T. Liang Liam Hodgkinson Michael W. Mahoney
研究问题:目前的基于神经网络的概率模型在捕捉尾部行为上往往不准确,除非基础分布的尾部被适当校准。
动机:为了克服这个缺点,我们提出了一种系统的方法来分析随机变量的尾部,并说明了如何在概率编程语言(PPL)编译器的静态分析(采样前)阶段使用这种方法。
方法:我们开发了一种基于广义伽马分布的三参数尾部渐近性族的代数,用于描述各种操作下尾部的变化。我们的代数运算在加法和乘法下是封闭的,能够区分具有不同尺度的次高斯分布,并且对比率的处理足够好,可以直接从定义中重现大多数重要统计分布的尾部。
效果:实证结果表明,利用我们重度尾部代数的推理算法在一系列密度建模和变分推断(VI)任务上取得了优越的性能。
SutraNets: Sub-series Autoregressive Networks for Long-Sequence, Probabilistic Forecasting
Shane Bergsma Tim Zeyl Lei Guo
研究问题:提出一种新的方法SutraNets,用于长序列时间序列的神经概率预测。
动机:大多数自回归方法在生成长序列时会遭受有害的错误累积,并且在建模长距离依赖关系方面存在挑战。
方法:SutraNets使用自回归生成模型将长序列的可能性分解为条件概率的乘积。在生成长序列时,SutraNets将长、单变量预测视为低频率子序列的多变量预测。自回归在时间和子序列之间进行,以确保一致的多变量(以及高频率单变量)输出。由于子序列可以使用更少的步骤生成,SutraNets有效地减少了错误累积和信号路径距离。
效果:在六个真实世界的数据集上,SutraNets显著提高了预测准确性,包括当改变子序列的数量和扩大底层序列模型的深度和宽度时。
Learning Robust Statistics for Simulation-based Inference under Model Misspecification
Daolang Huang Ayush Bharti Amauri H Souza Luigi Acerbi Samuel Kaski
研究问题:模拟推理方法(SBI)如近似贝叶斯计算(ABC)、合成似然和神经后验估计(NPE)在模型误设下会产生不可信和误导的推理结果,限制了其广泛应用。
动机:针对这一问题,我们提出了一种通用的方法来处理不同类别的SBI方法中的模型误设问题。
方法:利用统计选择决定了SBI中误设程度的事实,我们引入了一个正则化损失函数,对那些增加数据与模型不匹配的统计量进行惩罚。以NPE和ABC为例,我们在高维时间序列模型上展示了该方法的优秀性能,这些模型是人为误设的。我们还将此方法应用于无线电传播领域的实际数据,这些数据已知模型存在误设。
效果:实验证明,该方法在误设场景下产生稳健的推理,同时在模型正确设定时仍然准确。
Sharp Bounds for Generalized Causal Sensitivity Analysis
Dennis Frauen Valentyn Melnychuk Stefan Feuerriegel
研究问题:如何从观察数据中进行因果推断,特别是在存在未观察到的混淆因素的情况下。
动机:在医学、经济学等学科中,因果推断至关重要,但目前对因果效应的严格界限的研究仍在进行中。
方法:本文提出了一个统一的框架,用于在各种设置下进行未观察到的混淆因素的因果敏感性分析。我们提出了一种灵活的边际敏感性模型(MSM)的泛化,并为其导出了一类大因果效应的严格界限。
效果:我们的敏感性模型适用于离散、连续和时变的处理方式。在单个二进制治疗的特殊情况下,我们的条件平均治疗效果界限与最近的因果敏感性分析最优结果相吻合。最后,我们提出了一种可扩展的算法,用于从观察数据中估计我们的严格界限。
Distributional Learning of Variational AutoEncoder: Application to Synthetic Data Generation
SeungHwan An Jong-June Jeon
研究问题:尽管变分自编码器(VAE)在计算建模方面效率高,但其高斯性假设一直受到批评,被认为是其主要限制。
动机:本文提出了一种新的方法,旨在不牺牲VAE框架的计算优势的情况下,扩大模型容量(即分布族的表现力)。
方法:我们的VAE模型的解码器由无穷混合的非对称拉普拉斯分布组成,该分布具有连续变量的一般分布拟合能力。我们的模型由一种特殊形式的非参数M-估计器表示,用于估计一般的分位数函数,并在理论上建立了所提出的模型与分位数估计之间的相关性。
效果:我们将所提出的模型应用于合成数据生成,特别是,我们的模型在轻松调整数据隐私级别方面表现出优越性。
Pointwise uncertainty quantification for sparse variational Gaussian process regression with a Brownian motion prior
Luke Travis Kolyan Ray
研究问题:本文旨在研究稀疏变分高斯过程方法的点估计和不确定性量化,并使用特征向量诱导变量。
动机:对于重新缩放的布朗运动先验,我们为点可信集的频率论大小和覆盖范围提供了理论保证和限制。
方法:通过足够多的诱导变量,我们精确地描述了渐进频率论覆盖范围,推导出这种变分方法产生的可信集何时保守、何时过于自信/误导。
效果:我们的数值结果展示了这些结果的应用性,并讨论了与其他常见高斯过程先验的联系。
Deciphering Spatio-Temporal Graph Forecasting: A Causal Lens and Treatment
Yutong Xia Yuxuan Liang Haomin Wen Xu Liu Kun Wang Zhengyang Zhou Roger Zimmermann
研究问题:本文旨在解决时空图预测中存在的两个主要问题,即时间分布外(OoD)问题和动态空间因果关系问题。
动机:时空图神经网络是处理时空图预测任务的主流方法,但它们在处理时间分布外的问题和动态空间因果关系问题上存在困难。
方法:本文提出了一个名为CaST的新框架,通过使用因果处理方法来解决这两个问题。具体来说,我们首先利用因果视角构建了一个结构因果模型来解析时空图的数据生成过程。为了处理时间分布外的问题,我们采用了一种新的解耦模块进行后门调整,将时间环境从输入数据中分离出来。此外,我们还利用前门调整和边缘级卷积来模拟因果关系的涟漪效应。
效果:我们在三个真实世界的数据集上进行了实验,结果显示CaST的有效性,它始终优于现有方法,并且具有良好的可解释性。
Inferring Hybrid Neural Fluid Fields from Videos
Hong-Xing Yu Yang Zheng Yuan Gao Yitong Deng Bo Zhu Jiajun Wu
研究问题:本文旨在从稀疏多视角视频中恢复流体密度和速度。
动机:现有的神经动态重建方法主要依赖于光流,由于流体通常无形状且缺乏稳定的视觉特征,因此无法准确估计密度并揭示基本速度。
方法:我们提出了混合神经网络流体场(HyFluid),这是一种联合推断流体密度和速度场的神经方法。为了解决流体速度的视觉模糊性,我们引入了一系列基于物理的损失函数,强制推断出物理上可信的速度场,该场是无散的,并驱动密度传输。为了解决流体速度的湍流性质,我们设计了一种混合神经网络速度表示,包括捕获大部分无旋能量的基本神经网络速度场和模拟剩余湍流速度的涡粒子速度。
效果:我们的研究表明该方法能够恢复涡流流动的细节。这种方法为各种以3D不可压缩流为中心的学习和重建应用打开了可能性,包括流体重新模拟和编辑、未来预测和神经网络动态场景合成。
Causal Discovery from Subsampled Time Series with Proxy Variables
Mingzhou Liu Xinwei Sun Lingjing Hu Yizhou Wang
研究问题:如何从被低频率采样的时间序列数据中推断出因果结构。
动机:由于测量频率远低于因果关系的频率,这成为了科学探究的主要难题。
方法:本文提出了一种无参数约束的基于约束的算法,通过利用未来可观察时间步的自我代理来消除隐藏变量带来的偏差,从而实现因果结构的完全识别。
效果:该算法在理论和真实世界的实验中都表现出优势,能够实现全因果识别。
Streaming Factor Trajectory Learning for Temporal Tensor Decomposition
Shikai Fang Xin Yu Shibo Li Zheng Wang Robert Kirby Shandian Zhe
研究问题:现有的时间信息张量分解方法无法捕捉对象表示的演变过程,且缺乏从流数据中捕获这种演变的有效方法。
动机:为了解决这些问题,我们提出了一种针对时间张量分解的流因子轨迹学习(SFTL)方法。
方法:使用高斯过程(GPs)对因子轨迹进行建模,以灵活估计其时间演变。通过构建等效随机微分方程(SDE),将GPs转换为状态空间先验。开发了一种有效的在线滤波算法,在接收新数据时估计相关因子状态的解耦运行后验。
效果:实验表明,SFTL在合成任务和实际应用中都具有优势。
Variational Inference with Gaussian Score Matching
Chirag Modi Robert M. Gower Charles Margossian Yuling Yao David Blei Lawrence K. Saul
研究问题:本文旨在提出一种新的变分推断(VI)方法,以近似计算贝叶斯统计中难以处理的后验分布。
动机:传统的变分推断方法通常通过拟合简单的参数分布来接近目标后验分布,优化证据下界(ELBO)等适当目标。
方法:本文提出的新方法基于得分匹配原理,即如果两个分布相等,那么它们的得分函数(即对数密度的梯度)在其支撑集上的每个点都相等。利用这一原理,我们开发了得分匹配变分推断(SM-VI),这是一种迭代算法,寻求在变分近似和精确后验之间的得分上进行匹配。
效果:实验结果表明,当变分族是高斯分布时,这种内部优化具有封闭形式解,我们称之为高斯得分匹配变分推断(GSM-VI)。GSM-VI是一种“黑箱”变分算法,只需要可微分的联合分布,因此可以应用于广泛的模型类别。在一系列真实世界的贝叶斯推理问题上进行的比较表明,GSM-VI比黑箱变分推断(BBVI)更快且准确度相当或更高。
GPEX, A Framework For Interpreting Artificial Neural Networks
Amir Akbarnejad Gilbert Bigras Nilanjan Ray
研究问题:如何通过高斯过程(GPs)更好地理解深度人工神经网络(ANNs)的决策过程。
动机:现有的理论工作对ANN提出了严格的假设,但这些假设在新的深度架构中难以适应,因此需要一种新的方法来理解和解释ANN的决策过程。
方法:本文提出了一种证据下界,鼓励GP的后验分布与ANN的输出相匹配,而不对ANN做出任何要求。同时,作者还开发了一种新的计算技术,使得我们可以训练具有数十万个诱导点的GP,并使用GPU加速。
效果:实验结果表明,该方法能够成功地在5个数据集上找到与ANN输出相匹配的GP。此外,我们还使用这些GP的核函数来解释ANN的决策,提供了200多个易于人类理解的解释,证明了获得的GP能够揭示ANN的决策过程。
Why Did This Model Forecast This Future? Information-Theoretic Saliency for Counterfactual Explanations of Probabilistic Regression Models
Chirag Raman Alec Nonnemaker Amelia Villegas-Morcillo Hayley Hung Marco Loog
研究问题:提出一种后验显著性解释框架,用于概率多元时间序列预测(回归)中的反事实推理。
动机:在多变量时间序列预测中,缺乏对模型决策过程的解释和理解。
方法:基于米勒的社会科学研究解释框架,将反事实推理与显著性解释技术建立概念链接。利用信息论的显著性定义,并将其扩展到预测设置中,得到一个封闭形式的表达式,以确定哪些观察的时间步长对于模型做出概率预测是显著的。
效果:通过合成数据进行实证验证,并使用真实世界的数据和预测模型,展示了该框架如何帮助领域专家形成新的数据驱动假设,以了解特征之间的因果关系。
Temporal Causal Mediation through a Point Process: Direct and Indirect Effects of Healthcare Interventions
Çağlar Hızlı S. T. John Anne Tuulikki Juuti Tuure Tapani Saarinen Kirsi Hannele Pietiläinen Pekka Marttinen
研究问题:如何准确估计外部干预对结果的直接和间接效应,并展示这些影响如何影响整个未来轨迹。
动机:现有的动态因果中介分析方法存在局限性,如仅适用于规则测量间隔、简单的参数模型,以及忽视长期中介-结果交互作用。
方法:提出一种非参数中介-结果模型,其中假设中介是一个与结果过程相互作用的时序点过程。通过此模型,估计外部干预对结果的直接和间接效应。
效果:在半合成数据上证明该方法能准确估计直接和间接效应。在真实世界医疗数据上,该模型推断出手术后血糖的临床意义明确的直接和间接效应轨迹。
Practical Equivariances via Relational Conditional Neural Processes
Daolang Huang Manuel Haussmann Ulpu Remes S. T. John Grégoire Clarté Kevin Sebastian Luck Samuel Kaski Luigi Acerbi
研究问题:如何有效地将等变性质引入条件神经过程(CNPs)模型中,以提升模型的性能和适用性。
动机:许多机器学习任务,如时空建模、贝叶斯优化和连续控制,都包含等变性质,而现有的CNPs模型在处理多于两个输入维度的任务时无法有效扩展。
方法:提出关系条件神经过程(RCNPs)模型,通过此方法将等变性质引入到任何神经过程模型中,从而扩大等变神经过程的适用性和影响力。
效果:实验证明,RCNPs在一系列自然包含等变性质的任务上表现出了优秀的性能。
Variational Gaussian Processes with Decoupled Conditionals
Xinran Zhu Kaiwen Wu Natalie Maus Jacob R. Gardner David Bindel
研究问题:本文旨在解决变分高斯过程(VGP)的扩展性问题,即如何通过增加诱导点来提高模型精度,同时避免优化挑战和计算复杂性。
动机:尽管可以通过增加诱导点来减少近似误差,但这会导致优化挑战和计算复杂性的增加。为了实现可扩展性,我们考虑修改训练和测试条件als,使它们更具灵活性。
方法:我们研究了在条件中解耦预测均值和协方差的参数形式,并学习独立于预测均值和协方差的参数。我们根据这些更灵活的条件推导出新的证据下界(ELBO),并提供了应用解耦条件的两个具体示例。
效果:实验结果表明,这种额外的灵活性可以提高各种回归任务和贝叶斯优化(BO)应用的模型性能。
When can Regression-Adjusted Control Variate Help? Rare Events, Sobolev Embedding and Minimax Optimality
Jose Blanchet Haoxuan Chen Yiping Lu Lexing Ying
研究问题:本文研究了使用基于机器学习的估计器作为控制变量来减轻蒙特卡洛采样方差的问题。
动机:为了找出影响控制变量在减少方差方面的效率的关键因素。
方法:通过模拟从(随机)积分节点获取的观察结果,对Sobolev函数的矩进行模拟,并研究了一种特定的采用非参数回归调整控制变量的积分规则以降低蒙特卡洛模拟的方差。
效果:这种积分规则可以改善蒙特卡洛速率,并在充分平滑性假设下实现最小最大最优速率。同时,当存在罕见和极端事件时,蒙特卡洛算法的截断版本可以实现最小最大最优速率,而控制变量无法提高收敛速度。
Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework
Paul Pu Liang Yun Cheng Xiang Fan Chun Kai Ling Suzanne Nie Richard J. Chen Zihao Deng Nicholas Allen Randy Auerbach Faisal Mahmood Ruslan Salakhutdinov Louis-Philippe Morency
研究问题:如何量化多模态任务中输入模态与输出任务之间的相互作用?哪种多模态模型最适合捕捉这些相互作用?
动机:对多模态应用的兴趣激增,导致了大量的数据集和方法来表示和整合来自不同模态的信息。尽管有了这些实证进展,但仍存在基本的研究问题。
方法:提出了一种信息论方法来量化解决多模态任务所需的交互程度。我们称这三个度量为多模态分布的PID统计(或简称PID),并引入了两种新的PID统计量估计器,可扩展到高维分布。
效果:通过在已知PID的合成数据集和大型多模态基准测试集上进行广泛的实验,验证了PID估计的准确性。最后,展示了它们在以下方面的有用性:(1)量化多模态数据集中的交互;(2)量化多模态模型捕获的交互;(3)有原则的模型选择方法;(4)三个真实世界的案例研究,涉及病理学、情绪预测和机器人感知,在这些应用中,我们的框架有助于为每个应用推荐强大的多模态模型。
Training Energy-Based Normalizing Flow with Score-Matching Objectives
Chen-Hao Chao Wei-Fang Sun Yen-Chang Hsu Zsolt Kira Chun-Yi Lee
研究问题:建立基于流和基于能量的生成模型之间的参数化关系,并提出一种新的基于流的建模方法,称为基于能量的正则化流(EBFlow)。
动机:优化EBFlow以实现得分匹配目标,可以完全绕过线性变换的雅可比行列式的计算。
方法:通过优化EBFlow使用得分匹配目标,可以在构建基于流的模型时无需增加每次训练迭代的计算时间复杂度。
效果:实验结果表明,与常用的最大似然估计方法相比,该方法在运行速度上实现了显著的提升,并在负对数似然(NLL)方面也具有明显的优势。
Metropolis Sampling for Constrained Diffusion Models
Nic Fishman Leo Klarner Emile Mathieu Michael John Hutchinson Valentin De Bortoli
研究问题:现有的扩散模型方法无法指定任意的、领域相关的约束,且已有的噪声生成研究问题:现有的扩散模型方法无法指定任意的、领域相关的约束,且已有的噪声生成过程计算负担重或仅适用于欧几里得空间的凸子集。
动机:为了解决这些问题,本文提出了一种基于Metropolis采样的新噪声生成方案,以提高计算效率和实证性能。
方法:通过构建新的噪声生成过程,该过程对应于反射布朗运动的有效离散化。
效果:在一系列具有凸和非凸约束的问题设置中展示了该方法的可扩展性和灵活性,包括地理建模、机器人技术和蛋白质设计等领域的应用。
Should We Learn Most Likely Functions or Parameters?
Shikai Qiu Tim G. J. Rudner Sanyam Kapoor Andrew Gordon Wilson
研究问题:如何利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
ForecastPFN: Synthetically-Trained Zero-Shot Forecasting
Samuel Dooley Gurnoor Singh Khurana Chirag Mohapatra Siddartha Venkat Naidu Colin White
研究问题:大多数时间序列预测方法需要大量的训练数据集,但许多实际应用只有很少的初始观察值,限制了这些方法的应用。
动机:尽管有关于少量初始数据(所谓的“零样本”预测)的研究,但其性能取决于用于预训练的数据,效果不稳定。
方法:提出一种新的方法,设计出第一个纯粹在新的合成数据分布上训练的零样本预测模型——ForecastPFN。这是一个适应先验数据的网络,通过训练来近似贝叶斯推理,可以在一次前向传递中对新的时序数据集进行预测。
效果:实验表明,即使允许其他方法在数百个额外的同类数据点上进行训练,ForecastPFN进行的零样本预测也比最先进的预测方法更准确、更快。
topic-2
3d object segmentation image video visual point semantic
Rotating Features for Object Discovery
Sindy Löwe Phillip Lippe Francesco Locatello Max Welling
研究问题:人类认知中的绑定问题,即大脑如何在固定的神经网络连接中表示和连接对象,仍是一个激烈的争论点。
动机:大多数机器学习在无监督环境下解决这个问题的努力都集中在基于插槽的方法上,由于其离散性质和难以表达不确定性,可能有所限制。
方法:本文提出了旋转特征,这是复值特征向更高维度的泛化,以及一种新的评估程序,用于从分布式表示中提取对象。此外,我们还展示了我们的方法对预训练特征的适用性。
效果:这些进步使我们能够将分布式的对象中心表示从简单的玩具数据扩展到真实世界的数据。我们相信这项工作为解决机器学习中的绑定问题开辟了新范式,并有可能激发该领域的进一步创新。
Siamese Masked Autoencoders
Agrim Gupta Jiajun Wu Jia Deng Li Fei-Fei
研究问题:如何在计算机视觉中建立图像或场景之间的对应关系,特别是在存在遮挡、视角变化和对象外观变化的情况下。
动机:由于视频中的大量信息以及物体的动态特性,学习视频中的视觉对应关系是一项重大挑战。现有的方法往往需要复杂的数据增强、手工制作的基于跟踪的前任务或其他技术来防止表示崩溃。
方法:本文提出了一种名为Siamese Masked Autoencoders(SiamMAE)的方法,该方法是Masked Autoencoders(MAE)的一种简单扩展,用于从视频中学习视觉对应关系。SiamMAE随机抽取视频帧对,并对其进行不对称掩码处理。这些帧由编码器网络独立处理,而解码器由一系列交叉注意力层组成,负责预测未来帧中的缺失补丁。通过在未来帧中掩码大部分(95%)的补丁,同时保持过去帧不变,SiamMAE鼓励网络专注于物体运动并学习以物体为中心的表示。
效果:尽管其概念简单,但通过SiamMAE学习的特征在视频对象分割、关键点传播和语义部分传播任务上优于最先进的自监督方法。SiamMAE在不依赖数据增强、手工制作的基于跟踪的前任务或其他技术来防止表示崩溃的情况下,取得了竞争性的结果。
EgoEnv: Human-centric environment representations from egocentric video
Tushar Nagarajan Santhosh Kumar Ramakrishnan Ruta Desai James Hillis Kristen Grauman
研究问题:如何将第一人称视角的视频与其持续的环境进行关联,以更好地理解人类为中心的环境。
动机:目前的视觉理解方法主要关注从短视频片段中提取的视觉特征,这些特征与底层物理空间分离,只能捕捉到眼前的景象。
方法:通过学习对摄像头佩戴者(可能未被看到的)局部环境的预测性表示,将自我中心的视频和环境联系起来。
效果:在两个以人为中心的视频任务上,使用我们的环境感知特征的模型始终优于使用传统片段特征的模型。此外,尽管只针对模拟视频进行训练,但我们的方法成功处理了来自HouseTours和Ego4D的真实世界视频,并在Ego4D NLQ挑战上取得了最先进的结果。
Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast Contrastive Fusion
Yash Sanjay Bhalgat Iro Laina Joao F. Henriques Andrea Vedaldi Andrew Zisserman
研究问题:三维实例分割是一项具有挑战性的任务,因为缺乏大规模的标注数据集。
动机:本文提出利用预训练的二维模型来解决三维实例分割的问题。
方法:提出了一种新的方法,通过神经场表示将二维分割提升到三维,并通过多视图一致性在帧之间进行融合。核心方法是慢快聚类目标函数,适用于场景中对象数量大的情况。
效果:通过创建新的半现实数据集“Messy Rooms”,展示了慢快聚类的可扩展性。该方法在ScanNet、Hypersim和Replica数据集以及新创建的Messy Rooms数据集上的表现优于最先进的方法,证明了慢快聚类方法的有效性和可扩展性。
PAPR: Proximity Attention Point Rendering
Yanshu Zhang Shichong Peng Seyed Alireza Moazenipourasil Ke Li
研究问题:如何从零开始学习准确且简洁的场景表面点云表示,这是3D表示学习中的一个挑战。
动机:现有的基于点的学习方法常常受到梯度消失问题的影响,或者需要大量的点来精确地模拟场景几何和纹理。
方法:我们提出了一种名为Proximity Attention Point Rendering(PAPR)的新方法,该方法包括一个基于点的 scene representation 和一个可微分的渲染器。我们的 scene representation 使用一个点云,其中每个点都由其空间位置、前景得分和与视图无关的特征向量来描述。渲染器为每条光线选择相关的点,并使用它们关联的特征生成准确的色彩。
效果:PAPR 有效地学习了点云的位置以表示正确的场景几何,即使初始状态与目标几何大相径庭。值得注意的是,我们的方法在仅使用一组简洁的点的同时捕捉到了精细的纹理细节。我们还展示了该方法的四个实际应用:几何编辑、对象操作、纹理转移和曝光控制。
$SE(3)$ Equivariant Convolution and Transformer in Ray Space
Yinshuang Xu Jiahui Lei Kostas Daniilidis
研究问题:如何从多个视角学习几何先验,以改善3D重建和新颖视图渲染。
动机:当输入视图在覆盖范围和视间基线方面不足时,3D重建和新颖视图渲染可以从几何先验中大大受益。
方法:通过提出一个在射线空间中的$SE(3)$等变卷积和变换器,仅根据相机的相对位姿,学习相对于坐标框架变换的多个视图的先验。
效果:我们的数学框架使我们能够超越卷积到射线空间的$SE(3)$等变注意力。我们在旋转平移数据集上展示了$SE(3)$等变性,无需进行变换增强。
Multi-Object Representation Learning via Feature Connectivity and Object-Centric Regularization
Alex Foo Wynne Hsu Mong-Li Lee
研究问题:如何从图像中发现以对象为中心的表示,以提高机器学习算法的鲁棒性、样本效率和可解释性。
动机:当前多对象图像的研究通常遵循生成方法,优化输入重构,但在模型容量显著增加的情况下,无法扩展到真实世界数据集。
方法:提出一种利用特征连通性将可能属于同一对象的相邻像素聚类的新方法。进一步设计两种以对象为中心的正则化项,以在潜在空间中细化对象表示,使该方法能够扩展到复杂的真实世界图像。
效果:在模拟、真实世界、复杂纹理和常见对象图像上的实验结果表明,与最先进的方法相比,发现的对象质量有显著提高,同时该方法具有样本效率和通用性。还表明,发现的以对象为中心的表示可以准确预测下游任务的关键对象属性,突出了该方法在多对象表示学习领域的潜力。
Explore In-Context Learning for 3D Point Cloud Understanding
Zhongbin Fang Xiangtai Li Xia Li Joachim M. Buhmann Chen Change Loy Mengyuan Liu
研究问题:如何将上下文学习应用于3D点云领域,特别是在处理大量数据时。
动机:随着大规模模型在广泛数据上训练的兴起,上下文学习已成为自然语言处理和计算机视觉任务中显示出巨大潜力的新学习范式。然而,这一方法在3D点云领域的应用还处于探索阶段。
方法:提出了一种名为Point-In-Context的新型框架,专门用于3D点云的上下文学习。该框架将输入和输出都建模为每个任务的坐标。同时,还提出了联合采样模块,与通用点采样操作协同工作,有效解决了上述技术问题。
效果:通过广泛的实验验证了所提出方法在处理各种任务时的通用性和适应性。此外,通过更有效的提示选择策略,该框架超越了单独训练的模型的结果。
DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data
Stephanie Fu Netanel Yakir Tamir Shobhita Sundaram Lucy Chai Richard Zhang Tali Dekel Phillip Isola
研究问题:目前的感知相似度度量标准在像素和补丁级别上运行,无法捕捉图像布局、对象姿态和语义内容等中级别的相似性和差异性。
动机:开发一种全面评估图像的感知度量标准。
方法:收集人类对在各种方式上相似的图像对的相似性判断的新数据集,并使用最新的文本到图像模型创建在不同维度上被干扰的合成对。然后引入一种新的度量标准——DreamSim,以更好地符合人类的感知。
效果:实验结果表明,DreamSim不仅在合成数据上表现良好,而且在真实图像上也有很好的泛化能力,并在检索和重建任务上优于先前学习的度量标准和最近的大视觉模型。
Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and Audio
Xudong XU Dejan Markovic Jacob Sandakly Todd Keebler Steven Krenn Alexander Richard
研究问题:如何通过计算机视觉和音频信号,为全身运动和语音产生的3D空间音频进行建模。
动机:尽管3D人体建模在计算机视觉领域得到了广泛关注,但模拟由身体运动和语音产生的等效声学(即3D空间音频)的模型尚未得到社区的充分关注。
方法:我们提出了一种能够为全身生成精确3D空间音频的模型。该系统以头戴式麦克风和身体姿势的音频信号为输入,并产生包围发射器身体的3D音场作为输出,可以从3D空间中的任意位置渲染空间音频。
效果:我们收集了首个多模态人体数据集,使用多个摄像头和345个麦克风进行录制。在实证评估中,我们证明,当我们使用适当的损失函数训练模型时,它可以产生准确的身体诱导音场。数据集和代码可在线获取。
DreamHuman: Animatable 3D Avatars from Text
Nikos Kolotouros Thiemo Alldieck Andrei Zanfir Eduard Gabriel Bazavan Mihai Fieraru Cristian Sminchisescu
研究问题:如何从文本描述中生成逼真的可动画3D人类模型。
动机:现有的文本到3D方法在生成方面取得了很大进展,但在控制和空间分辨率等方面仍有限制,无法生成可放置在不同姿势(即可重定位或可动画)的3D人类模型,且对复杂结构如人的人体测量一致性仍具有挑战性。
方法:通过将大型文本到图像合成模型、神经辐射场和统计人体模型连接在一个新颖的优化框架中,实现了从文本生成动态3D人类化身的目标。
效果:该方法能够生成各种外观、服装、肤色和体型的可动画、逼真的3D人类模型,并在视觉逼真度上优于通用的文本到3D方法和先前的基于文本的3D化身生成器。
SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling
Jiaxiang Dong Haixu Wu Haoran Zhang Li Zhang Jianmin Wang Mingsheng Long
研究问题:现有的时间序列预训练模型在遮蔽部分时间点时会严重破坏关键的时间序列变化,使得重建任务过于困难,无法有效引导表示学习。
动机:为了解决这一问题,我们提出了一种简单而有效的预训练框架——SimMTM,通过将遮蔽建模与流形学习相关联,以减轻重建任务的难度。
方法:SimMTM通过权重聚合多个掩码系列之外的多个邻居来恢复被遮蔽的时间点,从而组装来自多个被破坏但互补的时间序列变化。此外,SimMTM还学习揭示流形的局部结构,这对遮蔽建模很有帮助。
效果:实验结果表明,SimMTM在预测和分类这两个典型的时间序列分析任务中,无论是在同域还是跨域设置下,都取得了最先进的微调性能,超越了目前最先进的时间序列预训练方法。
Masked Space-Time Hash Encoding for Efficient Dynamic Scene Reconstruction
Feng Wang Zilong Chen Guokang Wang Yafei Song Huaping Liu
研究问题:如何有效地从多视角或单眼视频中重建动态3D场景?
动机:动态场景通常包含大量静态区域,导致存储和计算冗余。
方法:提出一种新颖的Masked Space-Time Hash编码(MSTH)方法,将动态场景表示为3D哈希编码和4D哈希编码的加权组合,并通过学习型掩码来指导两个组件的权重,以反映每个3D位置的空间和时间重要性。
效果:该方法能降低哈希碰撞率,避免对静态区域的冗余查询和修改,使得用小尺寸的哈希表表示大量的时空体素成为可能。此外,由于不需要独立适应大量时间冗余特征,该方法更易于优化并快速收敛,仅需20分钟的训练即可处理一个300帧的动态场景。在广泛的动态场景评估中,MSTH始终优于先前最先进的方法,且只需20分钟的训练时间和130MB的内存存储。
AIMS: All-Inclusive Multi-Level Segmentation for Anything
Lu Qi Jason Kuen Weidong Guo Jiuxiang Gu Zhe Lin Bo Du Yu Xu Ming-Hsuan Yang
研究问题:尽管图像分割在精确视觉实体分割方面取得了进展,但对于满足不同级别的区域选择的图像编辑应用的多样化需求仍然没有解决。
动机:本文提出了一个新的任务——全包含多级别分割(AIMS),该任务将视觉区域分割为三个级别:部分、实体和关系(两个具有某些语义关系的实体)。
方法:通过多数据集多任务训练构建了一个统一的AIMS模型,以解决注释不一致性和任务相关性两大挑战。具体来说,我们提出了任务互补性、关联性和提示掩码编码器来进行三级预测。
效果:大量实验表明,与单一数据集上的其他最新方法或同时进行的“分割任何事物”工作相比,我们的方法更有效,具有更强的泛化能力。我们将公开我们的代码和训练模型。
L-CAD: Language-based Colorization with Any-level Descriptions using Diffusion Priors
Zheng Chang Shuchen Weng Peixuan Zhang Yu Li Si Li Boxin Shi
研究问题:本文旨在解决现有语言基础着色方法需要用户为图像中的大部分物体提供全面的颜色描述,导致性能不佳的问题。
动机:现有的语言基础着色方法存在需要用户提供全面颜色描述的不足,导致性能不佳。
方法:本文提出了一种统一的模型来进行任何级别的语言基础着色。利用预训练的跨模态生成模型来处理任何级别描述的内在模糊性,并设计了模块来保持局部空间结构,防止幽灵效应。
效果:通过提出新的采样策略,该模型在各种复杂场景中实现了实例感知的着色,并在实验结果中表现出优于语言基础和自动着色方法的效果。
Transient Neural Radiance Fields for Lidar View Synthesis and 3D Reconstruction
Anagh Malik Parsa Mirdehghan Sotiris Nousias Kyros Kutulakos David B. Lindell
研究问题:如何利用激光雷达或深度传感器的额外监督在NeRF框架中进行渲染。
动机:以前的激光雷达监督NeRF主要关注传统的相机图像渲染,并使用激光雷达衍生的点云数据作为辅助监督,因此它们未能结合激光雷达的底层图像形成模型。
方法:提出一种新的方法来渲染瞬态NeRFs,该方法将单个光子激光雷达系统测量的原始、时间分辨的光子计数直方图作为输入,并尝试从新的视角渲染这些直方图。与常规NeRFs不同,这种方法依赖于时间分辨版本的体积渲染方程来渲染激光雷达测量值,并在皮秒时间尺度上捕捉瞬态光传输现象。
效果:在第一个具有此类数据的模拟和捕获瞬态多视图扫描的单光子激光雷达原型上评估了该方法。总的来说,这项工作使NeRFs在瞬态时间尺度上的成像达到了一个新的维度,首次实现了从新视角渲染瞬态图像。此外,当在少数输入视点上训练时,我们的方法比基于点云的监督恢复了更好的几何形状和传统外观。瞬态NeRFs可能对自动驾驶、机器人和遥感等下游任务寻求模拟原始激光雷达测量的应用特别有用。
SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models
Ziyi Wu Jingyu Hu Wuyue Lu Igor Gilitschenski Animesh Garg
研究问题:如何提高基于插槽的对象为中心的学习模型在无监督对象发现和视觉生成任务上的性能。
动机:现有的基于插槽的学习方法在无监督对象发现和视觉生成任务上表现不佳,尤其是在图像和视频数据的生成质量上。
方法:提出了一种名为SlotDiffusion的对象为中心的潜在扩散模型(LDM),该模型通过改进插槽到图像的解码过程,提高了无监督对象分割和视觉生成的质量。
效果:实验结果表明,SlotDiffusion在六个数据集上的无监督对象分割和视觉生成任务上都优于以往的插槽模型。此外,我们学习到的对象特征可以用于现有的对象为中心的动态模型,从而提高视频预测质量和下游时间推理任务的性能。最后,我们在集成了自监督预训练的图像编码器的情况下,证明了SlotDiffusion在无约束的真实世界数据集(如PASCAL VOC和COCO)上的可扩展性。
MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion
Shitao Tang Fuyang Zhang Jiacheng Chen Peng Wang Yasutaka Furukawa
研究问题:本文旨在解决在有像素到像素对应关系的场景中,如全景图的视角裁剪或给定几何(深度图和姿态)的多视图图像生成的问题。
动机:现有的方法依赖于迭代的图像扭曲和修复,而MVDiffusion通过全局意识同时生成所有图像,解决了误差累积的问题。
方法:MVDiffusion引入了一种对应关系感知的注意力机制,实现了有效的跨视图交互。这种方法包括三个关键模块:1) 生成低分辨率图像并保持全局对应的生成模块;2) 在图像之间密集化空间覆盖的插值模块;3) 将图像上采样为高分辨率的超分辨率模块。
效果:对于全景图像,MVDiffusion能生成高达1024*1024像素的高分辨率照片真实图像。对于给定场景网格的几何条件多视图图像生成,MVDiffusion在纹理映射生成方面表现出了最先进的性能。
Segment Any Point Cloud Sequences by Distilling Vision Foundation Models
Youquan Liu Lingdong Kong Jun CEN Runnan Chen Wenwei Zhang Liang Pan Kai Chen Ziwei Liu
研究问题:本文旨在利用视觉基础模型(VFMs)开发一种新的框架,用于分割多样化的汽车点云序列。
动机:现有的方法在处理点云数据时需要大量的标注,且对不同来源、分辨率和规模的点云数据的泛化能力有限。
方法:本文提出了Seal框架,通过将VFMs直接蒸馏到点云中进行预训练,同时在相机到LiDAR和点到分割的正则化阶段强制实施空间和时间关系,以促进跨模态表示学习。
效果:实验结果表明,Seal在11个不同的点云数据集上表现出了优秀的性能和优越性,并在所有测试的点云数据集上的20个不同的少样本精调任务中都取得了显著的性能提升。
Differentiable Registration of Images and LiDAR Point Clouds with VoxelPoint-to-Pixel Matching
Junsheng Zhou Baorui Ma Wenyuan Zhang Yi Fang Yu-Shen Liu Zhizhong Han
研究问题:如何实现2D图像和3D点云的跨模态注册。
动机:现有的方法在匹配点和像素模式以及估计刚体变换时存在困难,导致注册结果不稳定。
方法:提出一种可微分的概率PnP求解器来学习结构化的跨模态潜在空间,以表示像素特征和3D特征。设计了一个三元网络来学习VoxelPoint-to-Pixel匹配,并使用CNN设计了体素和像素分支来操作网格中的体素/像素卷积。通过直接在预测的姿态分布上施加监督来训练整个框架。
效果:在KITTI和nuScenes数据集上的实验结果表明,该方法显著优于现有方法。
Context-PIPs: Persistent Independent Particles Demands Context Features
Weikang BIAN Zhaoyang Huang Xiaoyu Shi Yitong Dong Yijin Li Hongsheng Li
研究问题:本文旨在解决视频中持续独立粒子(PIPs)的问题,即追踪视频中的任意点。
动机:现有的方法在估计视频中点的长期轨迹时,忽视了空间上下文特征的利用。
方法:我们提出了一种名为Context-PIPs的新框架,通过聚合视频中的空间上下文特征,有效提高了点轨迹的准确性。该框架包含两个主要模块:1) 来源特征增强(SOFE)模块;2) 目标特征聚合(TAFA)模块。
效果:Context-PIPs显著改善了PIPs的所有方面,在CroHD上将遮挡点的Average Trajectory Error降低了11.4%,在TAP-Vid-Kinectics上将正确关键点的平均百分比提高了11.8%。
4D Panoptic Scene Graph Generation
Jingkang Yang Jun CEN Wenxuan Peng Shuai Liu Fangzhou Hong Xiangtai Li Kaiyang Zhou Qifeng Chen Ziwei Liu
研究问题:如何让人工智能全面理解四维环境。
动机:我们生活在一个三维空间中,同时在时间这个第四维度上前进。为了能让人工智能对这样的四维环境有全面的理解,我们提出了4D Panoptic Scene Graph(PSG-4D)。
方法:PSG-4D将动态四维世界中感知的原始视觉数据抽象为节点和边,节点代表具有精确位置和状态信息的实体,边捕捉时间关系。我们还构建了一个丰富的PSG-4D数据集,并设计了PSG4DFormer模型进行预测和生成。
效果:实验表明,我们的模型可以作为未来PSG-4D研究的强基线。通过整合大型语言模型,我们可以实现动态场景理解。
VoxDet: Voxel Learning for Novel Instance Detection
Bowen Li Jiashun Wang Yaoyu Hu Chen Wang Sebastian Scherer
研究问题:基于多视角模板检测未见过实例的问题是一个挑战,因为其开放世界的特性。
动机:传统的主要依赖二维表示和匹配技术的方法论,在处理姿态变化和遮挡问题上往往力不从心。
方法:我们引入VoxDet,一种创新的三维几何感知框架,充分利用强大的三维体素表示和可靠的体素匹配机制。VoxDet首先巧妙地提出了模板体素聚合(TVA)模块,有效地将多视角二维图像转化为三维体素特征。通过利用关联的相机位姿,这些特征被聚合成一个紧凑的三维模板体素。在新的实例检测中,这种体素表示显示出对遮挡和姿态变化的增强抵抗力。我们还发现,一个三维重建目标有助于预训练二维-三维映射在TVA中。其次,为了快速与模板体素对齐,VoxDet集成了一个查询体素匹配(QVM)模块。二维查询首先被转换为其体素表示,并学习二维-三维映射。我们发现,由于三维体素表示编码了几何信息,我们可以先估计相对旋转,然后比较对齐的体素,从而提高准确性和效率。
效果:我们在RoboTools上进行了大量实验,这是一个首个实例检测基准,其中20个独特的实例由摄像头外部参数录制。RoboTools还提供了24个具有超过9k个框注释的具有挑战性的杂乱场景。我们在要求高的LineMod-Occlusion、YCB-video和RoboTools基准上进行了详尽的实验,其中VoxDet以更快的速度显著优于各种二维基线。据我们所知,VoxDet是第一个将隐式三维知识用于二维新实例检测任务的方法。
Diverse Shape Completion via Style Modulated Generative Adversarial Networks
Wesley Khademi Li Fuxin
研究问题:如何从部分观察中恢复物体的完整3D几何形状。
动机:形状补全问题本质上是多模态的,因为有许多合理的方式可以完成形状的缺失区域。这种多样性反映了形状的潜在不确定性,可能对下游任务如规划更有利。
方法:提出一种新的条件生成对抗网络,可以从部分观察到的点云生成多个多样化的可能补全。通过风格调制在网络中引入随机性,从完整的形状中提取风格代码并在训练过程中学习其分布,使风格代码能够明确地携带形状类别信息,从而得到更好的补全结果。
效果:在多个合成和真实数据集上的评估表明,该方法在尊重部分观察的同时,可以获得更多样化的补全结果,实现了显著的改进。
A polar prediction model for learning to represent visual transformations
Pierre-Étienne H Fiquet Eero P Simoncelli
研究问题:所有生物体都能进行时间预测,其进化适应度水平取决于这些预测的准确性。在视觉感知的背景下,观察者和场景中物体的运动构成了感官信号的动态性,使得基于过去信号的部分预测未来信号成为可能。
动机:我们提出了一个自我监督表示学习框架,该框架提取并利用自然视频的规律性来计算准确的预测。通过类比傅立叶变换定理及其群论推广,我们优化了极坐标架构的参数以进行下一帧预测。
方法:通过控制实验,我们发现这种方法可以发现在数据中执行简单转换组的表示。当我们在自然视频数据集上训练时,我们的框架实现了优于传统运动补偿和传统深度网络的预测性能,同时保持了可解释性和速度。
效果:此外,极坐标计算可以被重新构造为类似于灵长类动物V1神经元的标准化简单和方向选择性复杂细胞模型的组件。因此,极坐标预测提供了一个理解视觉系统如何以简化时间预测的形式表示感官输入的原理性框架。
Equivariant Single View Pose Prediction Via Induced and Restriction Representations
Owen Lewis Howell David Klee Ondrej Biza Linfeng Zhao Robin Walters
研究问题:如何从二维图像中学习三维世界,并满足旋转和平移的三维预测。
动机:理想的神经网络架构应该能够利用物体在三维空间中的旋转和平移特性进行新颖图像的预测,但在二维平面上实现$SO(3)$-等变性是困难的。
方法:通过学习$SO(2)$-等变约束,我们构建了一种可以从二维图像中学习三维世界表示的新算法。
效果:我们的算法在PASCAL3D+和SYMSOL姿态估计任务上取得了最新的成果,证明了其有效性。
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images
Antonín Vobecký Oriane Siméoni David Hurych Spyros Gidaris Andrei Bursuc Patrick Perez Josef Sivic
研究问题:如何从2D图像预测开放词汇的3D语义体素占用地图,以实现3D地面化、分割和自由形式语言查询的检索。
动机:由于2D-3D歧义和目标任务的开放词汇性质,获取3D标注的训练数据困难,这是一个挑战性的问题。
方法:设计一个新的模型架构用于开放词汇的3D语义占用预测,包括一个2D-3D编码器以及占用预测和3D语言头部。开发了一个利用三种模态(图像、语言和LiDAR点云)的自我监督学习算法,无需任何3D手动语言注释即可训练提出的架构。
效果:在几个开放词汇任务上进行了定量演示,包括使用现有数据集的零样本3D语义分割,以及使用我们提出并作为nuScenes扩展的小型数据集进行3D地面化和自由形式语言查询的检索。
UP-NeRF: Unconstrained Pose Prior-Free Neural Radiance Field
Injae Kim Minhyuk Choi Hyunwoo J. Kim
研究问题:目前的神经辐射场(NeRF)模型在处理无约束的图像集合和变化的光照条件以及瞬态遮挡物时存在困难。
动机:为了解决这些问题,本文提出了一种无需相机位姿先验的神经辐射场(UP-NeRF)。
方法:通过优化颜色不敏感的特征场和分离模块来处理瞬态遮挡物对位姿估计的影响,并引入候选头部以实现更稳健的位姿估计,同时采用瞬态感知深度监督来最小化错误先验的影响。
效果:实验结果表明,与基线模型(包括BARF及其变体)相比,UP-NeRF在具有挑战性的互联网照片集合“Phototourism数据集”上表现出优越的性能。
Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image
Yuki Kawana Tatsuya Harada
研究问题:如何从单张RGBD图像重建多个人造铰接物体,并估计其姿态和运动学。
动机:目前的重建方法主要依赖于学习实例级的潜空间,而忽视了具有预定义部分数量的人造铰接物体的特性。
方法:提出一种新颖的部分级表示法,将实例表示为检测到的部分的组合。同时,提出了测试时的运动学感知部分融合、各向异性尺度归一化以及特征空间和输出空间之间的平衡策略等方法来解决检测性能、假阳性、部分大小和比例等问题。
效果:实验证明,该方法能够成功重建出多种结构,且在形状重建和运动学估计上优于现有方法。
Flow-Attention-based Spatio-Temporal Aggregation Network for 3D Mask Detection
Yuxin Cao Yian Li Yumeng Zhu Derui Wang Minhui Xue
研究问题:由于欺骗攻击对人脸识别系统的安全威胁,反欺骗检测已成为必要。大多数基于深度学习的方法在3D面具上表现不佳,这些面具在外观和结构上高度模拟真实面孔,仅关注单帧输入的空间域,导致泛化能力不足。
动机:尽管传统的攻击方法取得了巨大的成功,但基于深度学习的方法在3D面具上表现不佳。最近引入的生物医学技术rPPG(远程光电容积脉搏波描记术)在一定程度上缓解了这个问题,但是这种方法对噪声干扰敏感,并且需要至少一秒钟(> 25帧)的观察时间,这会导致高昂的计算开销。
方法:为了解决这些挑战,我们提出了一种新的3D面具检测框架,名为FASTEN(基于流-注意力的时空聚合网络)。我们为该网络量身定制,使其更关注大运动中的细粒度细节,从而消除冗余的时空特征干扰,并在较少的帧中快速捕获3D面具的拼接痕迹。我们提出的网络包含三个关键模块:1)一个面部光学流网络,用于获取非RGB帧间流信息;2)流注意力,为每帧分配不同的显著性;3)时空聚合,聚合高层空间特征和时间转换特征。
效果:通过大量实验,FASTEN只需要五帧输入,并且在数据集内和跨数据集评估中,在多个检测指标上都优于八个竞争对手。此外,FASTEN已部署在现实世界的移动设备上进行实际的3D面具检测。
Reusable Slotwise Mechanisms
Trang Nguyen Amin Mansouri Kanika Madan Nguyen Duy Khuong Kartik Ahuja Dianbo Liu Yoshua Bengio
研究问题:如何通过有效的场景表示和对象子集之间的交互机制理解,提高机器人在新颖场景中的鲁棒性和泛化能力。
动机:现有的场景表示方法主要依赖对象槽位,但这种方法无法有效处理需要稀疏对象子集的复杂交互情况。
方法:提出可重用槽位机制(RSM)框架,该框架通过槽位间的通信和模块化架构,动态选择用于预测每个对象槽未来状态的可重用机制。同时,利用中心上下文信息(CCI),使选定的机制能够通过瓶颈访问剩余的槽位,以实现更高阶和复杂的交互模型。
效果:实验结果表明,RSM在各种未来预测和相关下游任务中的表现优于现有方法,包括视觉问答和动作规划。此外,RSM还展示了在复杂场景中的分布外泛化能力。
Spatio-Angular Convolutions for Super-resolution in Diffusion MRI
Matthew Lyon Paul Armitage Mauricio A Álvarez
研究问题:本文旨在提出一种新颖的扩散磁共振成像(dMRI)角度超分辨率方法,该方法基于参数连续卷积(PCConv)框架。
动机:现有的dMRI扫描时间长,需要高分辨率数据集。通过利用该领域独特的几何结构,提出了一种新的dMRI角度超分辨率方法。
方法:在PCConv框架的基础上,引入了傅里叶特征映射、全局坐标和特定领域的上下文等操作,构建了一个全参数连续卷积网络(PCCNN),并与现有模型进行比较。
效果:实验结果表明,PCCNN在性能上具有竞争力,同时使用的参数数量显著减少。此外,这种形式在临床相关的下游分析中具有良好的泛化能力,如基于固定点的分析、神经轴突方向弥散和密度成像。
Mip-Grid: Anti-aliased Grid Representations for Neural Radiance Fields
Seungtae Nam Daniel Rho Jong Hwan Ko Eunbyung Park
研究问题:现有的神经辐射场(NeRF)模型在渲染3D场景和生成新视角图像时,存在“锯齿”或模糊的图像问题。
动机:为了解决这个问题,研究人员提出了mip-Grid方法,该方法将抗锯齿技术整合到基于网格的辐射场表示中。
方法:mip-Grid使用单一的共享网格表示和单次采样方法,通过简单的卷积操作生成多个网格,并使用尺度感知坐标从生成的多个网格中检索适当的特征。
效果:实验结果表明,mip-Grid大大提高了两种代表性的基于网格的方法——TensoRF和K-Planes的渲染性能,并在多尺度数据集上与mip-NeRF的性能相当,同时训练时间显著缩短。
DreamSparse: Escaping from Plato’s Cave with 2D Diffusion Model Given Sparse Views
Paul Yoo Jiaxian Guo Yutaka Matsuo Shixiang Shane Gu
研究问题:如何从少量视图中合成新的视图图像。
动机:现有的方法在少数视图设置下,由于提供的信息不足,往往难以产生高质量的结果,或者需要对每个对象进行优化。
方法:我们探索利用预训练扩散模型中的强2D先验知识来合成新的视图图像。我们提出了DreamSparse框架,该框架使预训练的扩散模型能够生成几何和身份一致的新视图图像。
效果:实验结果表明,我们的框架能够有效地从稀疏视图中合成新的视图图像,并在训练和开放类别图像上都优于基线。
Object-centric Learning with Cyclic Walks between Parts and Whole
Ziyu Wang Mike Zheng Shou Mengmi Zhang
研究问题:如何从复杂的自然环境中学习以对象为中心的表示,使人类和具有推理能力的机器能够从低级感知特征中进行推理。
动机:目前的模型在处理复杂场景时,往往忽视了对象实体的组成性,以及视觉信息与对象实体之间的对应关系。
方法:提出一种在视觉转换器提取的感知特征和对象实体之间进行循环游走的方法,通过槽位注意力模块建立感知特征和槽位绑定的对象表示之间的对应关系,并利用部分和整体之间的相互作用形成循环一致性,作为监督信号训练槽位注意力模块。
效果:实验结果表明,使用这种方法训练的网络能够在复杂场景中区分前景和背景,发现对象,分割语义对象。与依赖解码器进行像素级或特征级重建的对象中心模型相比,该方法提供了强大的学习信号,避免了计算开销,提高了内存效率。
Injecting Multimodal Information into Rigid Protein Docking via Bi-level Optimization
Ruijia Wang YiWu Sun Yujie Luo Shaochuan Li Cheng Yang Xingyi Cheng Hui Li Chuan Shi Le Song
研究问题:本文旨在解决蛋白质-蛋白质复合物结构预测的问题,即如何从未结合状态预测其三维结构。
动机:现有的对接方法通常只使用单一模态信息(如序列或结构),导致预测结果不理想。
方法:本文提出了一种名为xTrimoBiDock的新模型,通过双层优化有效整合了序列和结构模态信息。具体来说,跨模态转换器结合多模态信息预测蛋白质间距离图,然后通过优化旋转平移变换将对接姿态与预测的距离图对齐。
效果:实验结果表明,相比基线方法,BiDock在具有挑战性的抗体-抗原对接问题上取得了显著的改进,最大相对提高了234%。
Template-free Articulated Neural Point Clouds for Reposable View Synthesis
Lukas Uzolas Elmar Eisemann Petr Kellnhofer
研究问题:本文旨在解决现有动态神经辐射场(NeRFs)在合成3D场景新视图时,对捕获对象姿势的再动画化困难以及视觉保真度低、重建时间长或仅限于特定应用领域等问题。
动机:目前的动态模型通常依赖于后向形变场,使得对捕获的对象姿势进行再动画化具有挑战性。此外,最先进的动态模型往往受限于低视觉保真度、长的重建时间或仅适用于狭窄的应用领域。
方法:本文提出了一种新颖的方法,利用基于点的表示和线性混合蒙皮(LBS),从稀疏的多视角视频中联合学习动态神经辐射场(NeRF)和相关的骨骼模型。我们的前向扭曲方法在合成新视图和姿势时实现了最先进的视觉保真度,同时与现有工作相比,显著减少了必要的学习时间。
效果:我们在各种常见的数据集上展示了我们表示的通用性,并在不需要特定于对象的骨骼模板的情况下获得了可重复使用的3D重建。
Global-correlated 3D-decoupling Transformer for Clothed Avatar Reconstruction
Zechuan Zhang Li Sun Zongxin Yang Ling Chen Yi Yang
研究问题:如何从单张图片重建穿着衣服的三维人体模型,特别是在面对复杂姿势和宽松服装时。
动机:当前的方法在性能上存在限制,主要是因为它们依赖于不足的二维图像特征和不一致的查询方法。
方法:提出了一种基于变压器的新型架构——全球关联3D解耦变压器(GTA),用于重建穿着衣服的人体头像。该方法利用视觉变压器模型作为编码器来捕获全局关联的图像特征,然后通过使用可学习的嵌入作为查询进行跨平面生成,实现了对三平面特征的解耦。
效果:在CAPE和THuman2.0数据集上的全面实验表明,该方法在几何和纹理重建方面均优于最先进的方法,对于挑战性的姿势和宽松的服装表现出高度的鲁棒性,并能产生更高分辨率的纹理。
Towards Robust and Expressive Whole-body Human Pose and Shape Estimation
Hui En Pang Zhongang Cai Lei Yang Qingyi Tao Zhonghua Wu Tianwei Zhang Ziwei Liu
研究问题:全身姿态和形状估计旨在从单目图像中联合预测整个人的身体的不同行为(如姿势,手势,面部表情)。由于野外场景的复杂性,现有方法往往表现不佳。
动机:这些模型的预测准确性受到边界框质量(如规模,对齐)的显著影响。理想边界框注释和模型检测结果之间的自然差异对全身姿态和形状估计的性能尤为不利。
方法:本文提出了一种新的框架来增强全身姿态和形状估计的鲁棒性。我们的框架包含三个新模块,从三个角度解决上述挑战:(1)定位模块增强了模型对图像空间中主体位置和语义的意识;(2)对比特征提取模块通过引入对比损失和正样本,鼓励模型对稳健的增强具有不变性;(3)像素对齐模块确保从预测的相机和身体模型参数重新投影的网格更准确且像素对齐。
效果:我们进行了全面实验,以证明我们的提出的框架在身体,手,脸和全身基准测试上的有效性。
Contrastive Training of Complex-Valued Autoencoders for Object Discovery
Aleksandar Stanić Anand Gopalakrishnan Kazuki Irie Jürgen Schmidhuber
研究问题:如何改进现有的以对象为中心的模型,使其能够更好地绑定对象并处理更复杂的任务。
动机:目前的模型存在一些概念性的限制,如插槽数量固定、所有插槽的容量相等、训练成本高以及插槽内没有对象级别的关系因素等。
方法:通过引入架构修改和一种新的对比学习方法,大大改进了最先进的同步基模型。这是首次获得能够在多对象彩色数据集中发现对象的同步基模型,并能同时表示超过三个对象。
效果:实验结果表明,这种方法显著提高了模型的性能,使其能够更好地处理复杂的任务。
ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields
Jiahua Dong Yu-Xiong Wang
研究问题:本文旨在提出一种基于文本指令的3D编辑方法ViCA-NeRF,以实现多视图一致性。
动机:目前的方法在处理3D编辑时缺乏对多视图一致性的关注。
方法:该方法利用深度信息和学习到的正则化来确保不同视图之间的一致性,并通过两个阶段的训练来细化场景的外观。
效果:实验结果表明,ViCA-NeRF相比现有技术提供了更灵活、高效且具有更高一致性和细节的编辑效果。
MomentDiff: Generative Video Moment Retrieval from Random to Real
Pandeng Li Chen-Wei Xie Hongtao Xie Liming Zhao Lei Zhang Yun Zheng Deli Zhao Yongdong Zhang
研究问题:视频时刻检索旨在找到与给定语言描述对应的未修剪视频中的特定时间段。
动机:现有的方法在处理随机初始化和数据集位置偏差时存在困难,需要一种更有效、更通用的解决方案。
方法:提出了一种名为MomentDiff的生成性扩散框架,模拟了人类从随机浏览到逐渐定位的检索过程。通过将真实跨度扩散到随机噪声,并在文本和视频相似性的引导下学习去噪,模型能够从任意随机位置映射到真实时刻,从而能够在随机初始化的位置进行定位。
效果:实验结果表明,MomentDiff在三个公共基准上始终优于最先进的方法,并在提出的抗偏差数据集上表现出更好的泛化性和鲁棒性。
Prototypical Variational Autoencoder for 3D Few-shot Object Detection
Weiliang Tang Biqi YANG Xianzhi Li Yun-Hui Liu Pheng-Ann Heng Chi-Wing Fu
研究问题:如何利用有限的标注样本进行3D点云对象检测。
动机:现有的方法在只有少量标注样本的情况下,检测性能往往受限于潜在特征的质量。
方法:设计了一种基于变分自编码器(VAE)的原型学习方案,称为原型VAE(P-VAE),用于增强采样特征的多样性和独特性。网络编码了一个多中心高斯混合模型(GMM)类似的后验分布,每个分布都以一个原型为中心。为了进行正则化,P-VAE引入了保留几何信息重建任务。
效果:实验结果表明,该方法在两个FS3D基准测试中的表现超过了现有技术。定量消融研究和定性原型分析进一步证明,我们的概率建模可以显著提高FS3D的原型学习。
$p$-Poisson surface reconstruction in curl-free flow from point clouds
Yesom Park Taekyung Lee Jooyoung Hahn Myungjoo Kang
研究问题:本文旨在从无序的点云中重建平滑的表面,同时保留几何形状,不依赖任何额外信息。
动机:现有的方法重建质量依赖于真实的内在函数值或表面法向量,而新的方法通过求解偏微分方程和微分矢量场的基本性质,可以稳健地重建高质量的表面。
方法:将p-泊松方程用于学习有符号距离函数(SDF),重建的表面由SDF的零水平集隐式表示。为了高效训练,通过引入SDF的梯度作为辅助变量,并将p-泊松方程直接应用于辅助变量作为一个硬约束来开发一个变量分割结构。基于梯度场的无旋属性,对辅助变量施加无旋约束,从而得到更忠实的重建。
效果:在标准基准数据集上的实验表明,所提出的内在表示提供了优越且稳健的重建。代码可在https://github.com/Yebbi/PINC获取。
HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception
Junkun Yuan Xinyu Zhang Hao Zhou Jian Wang Zhongwei Qiu Zhiyin Shao Shaofeng Zhang Sifan Long Kun Kuang Kun Yao Junyu Han Errui Ding Lanfen Lin Fei Wu Jingdong Wang
研究问题:本文旨在探讨预训练模型在人类中心感知任务中的重要性,并提出一种新的预训练方法。
动机:通过重新审视掩蔽图像建模(MIM)的训练策略,发现人类结构先验具有巨大潜力。受此启发,我们进一步将直观的人类结构先验——人体部位——纳入预训练中。
方法:具体来说,我们使用这个先验来指导掩码采样过程。与人体部位区域对应的图像补丁具有较高的被遮蔽优先级。这鼓励模型在预训练期间更多地关注身体结构信息,从而在一系列人类中心感知任务上产生实质性的好处。为了进一步捕捉人类特征,我们提出了一种结构不变的对齐损失,该损失强制在不同的掩蔽视图下,由人体部位先验引导的图像紧密对齐。我们将整个方法称为HAP。
效果:HAP仅使用普通的ViT作为编码器,但在11个人类中心基准测试中建立了新的最先进的性能,并在一个数据集上取得了同等的结果。例如,HAP在MSMT17上实现了78.1%的mAP用于人员重识别,在PA-100K上实现了86.54%的mA用于行人属性识别,在MS COCO上实现了78.2%的AP用于2D姿态估计,以及在3DPW上实现了56.0 PA-MPJPE用于3D姿态和形状估计。
TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation
rongkun Zheng Lu Qi Xi Chen Yi Wang Kun Wang Yu Qiao Hengshuang Zhao
研究问题:如何利用大量数据集提高视频实例分割的性能,同时解决注释数据集难以扩大的问题。
动机:由于注释数据集的高昂人力成本,我们拥有的是大量特定领域的孤立数据集。因此,吸引人们联合训练跨数据集聚合的模型以增强数据量和多样性。然而,由于类别空间的异质性,随着数据量的增加,单纯利用多个数据集会稀释模型对不同分类法的关注。因此,在提高分类精度的同时增加数据规模和丰富分类空间是重要的。
方法:我们提出名为Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation(TMT-VIS)的模型,设计了一个两阶段分类法聚合模块,首先从输入视频中编译分类法信息,然后在transformer解码器之前将这些分类法先验聚合成实例查询。
效果:我们在四个流行且具有挑战性的基准上进行了广泛的实验评估,包括YouTube-VIS 2019、YouTube-VIS 2021、OVIS和UVO。我们的模型在所有这些基准上都取得了显著的改进,并创造了新的最先进的记录。这些吸引人且令人鼓舞的结果证明了我们提出的方法是有效且通用的。
Reducing Shape-Radiance Ambiguity in Radiance Fields with a Closed-Form Color Estimation Method
Qihang Fang Yafei Song Keqiang Li Liefeng Bo
研究问题:现有的Neural radiance field (NeRF)模型在训练过程中存在形状-辐射二义性问题,即不能正确解耦场景的形状和辐射度。
动机:为了解决这一问题,本文提出了一种更适应的方法来降低形状-辐射二义性。
方法:该方法的核心是一种仅基于密度场的渲染方法。首先,我们根据密度场和拍摄图像估计颜色场,然后进行NeRF的渲染过程。我们还解决了在估计颜色场时的问题,包括遮挡和非均匀分布的视图。最后,我们将这种方法应用于规范NeRF的密度场。
效果:实验结果表明,我们的方法在定性和定量上都改善了NeRF的密度场。
Neural-Logic Human-Object Interaction Detection
Liulei Li Jianan Wei Wenguan Wang Yi Yang
研究问题:现有的Transformer-based HOI检测器通常接受预先组合的人类-物体对作为输入,缺乏在解码过程中探索实体之间新组合的可行性。
动机:本文提出了一种新的HOI检测器LogicHOI,利用神经逻辑推理和Transformer来推断实体之间的可行交互。
方法:具体来说,我们修改了普通Transformer中的自注意力机制,使其能够对⟨人类,动作,物体⟩三元组进行推理并构成新的交互。同时,这种推理过程受到两个关键属性的指导:可提供性(一个物体可能促进的潜在行动)和亲近性(人类和物体之间的空间关系)。我们将这两个属性用一阶逻辑公式化并将其转化为连续空间以约束我们的方法的学习过程,从而提高性能和零样本泛化能力。
效果:我们在V-COCO和HICO-DET上评估了LogicHOI,无论是在正常还是零样本设置下,都取得了显著优于现有方法的效果。
Binary Radiance Fields
Seungjoo Shin Jaesik Park
研究问题:提出一种存储高效的二值辐射场(BiRF)表示方法,通过二进制编码参数以$+1$或$-1$的格式对局部特征进行编码。
动机:现有的辐射场表示方法需要大量的存储空间,我们希望通过二值化策略和2D-3D混合特征网格设计来减少存储需求,提高表示效率。
方法:采用二进制编码参数以$+1$或$-1$的格式对局部特征进行编码,形成高度紧凑的特征编码,大大降低了存储大小。同时,我们的2D-3D混合特征网格设计使得特征编码更加紧凑,其中3D网格包含主要组件,2D网格捕获细节。
效果:实验结果表明,我们的二值辐射场表示方法在重建性能上超过了现有最先进的高效辐射场模型,且存储分配更低。特别是在静态场景重建方面,我们的模型仅使用0.5MB的存储空间,就实现了32.03 dB的PSNR(峰值信号噪声比)对于合成NeRF场景,34.48 dB对于合成NSVF场景,28.20 dB对于坦克和寺庙场景。我们希望提出的二值辐射场表示方法可以使辐射场在没有存储瓶颈的情况下更容易被应用。
UE4-NeRF:Neural Radiance Field for Real-Time Rendering of Large-Scale Scene
Jiaming Gu Minchao Jiang Hongsheng Li Xiaoyuan Lu Guangming Zhu Syed Afaq Ali Shah Liang Zhang Mohammed Bennamoun
研究问题:本文旨在解决Neural Radiance Fields(NeRF)在实时渲染大型场景时的性能限制。
动机:目前的NeRF方法虽然能从照片中重建3D场景,但在实时渲染大型场景方面仍有显著局限。
方法:本文提出了一种名为UE4-NeRF的新型神经渲染系统,专为实时渲染大型场景设计。我们将每个大场景分割成不同的子NeRFs,并在场景内构建多个规则的八面体来初始化多边形网格,顶点会在训练过程中持续优化。我们还借鉴了细节层次(LOD)技术,为不同观察级别训练了不同详细程度的网格。
效果:我们的方法与Unreal Engine 4(UE4)的光栅化管线结合,实现了4K分辨率下大型场景的实时渲染,帧率高达43FPS。此外,通过实验,我们证明了该方法的渲染质量可与最先进的方法相媲美。
Self-Chained Image-Language Model for Video Localization and Question Answering
Shoubin Yu Jaemin Cho Prateek Yadav Mohit Bansal
研究问题:如何有效地利用预训练的图像-语言模型进行视频问答,特别是在只有部分视频输入与语言查询相关时,避免丢失重要的视觉线索。
动机:目前的图像-语言模型在进行视频问答时,通常将均匀采样的视频帧作为视觉输入,没有明确的基于语言的、时间建模。当只有部分视频输入与语言查询相关时,这种均匀的帧采样方法往往会遗漏重要的视觉线索。
方法:提出自我链接的视频定位-回答(SeViLA)框架,该框架利用单一的图像-语言模型(BLIP-2)来解决视频中的时间关键帧定位和问题回答两个问题。SeViLA框架由定位器和回答器两个模块组成,这两个模块都是从BLIP-2参数高效地微调出来的。
效果:实验结果表明,SeViLA框架在五个具有挑战性的视频问答和事件预测基准上优于几个强大的基线/先前的工作,并在精调(NExT-QA和STAR)和零样本(NExT-QA,STAR,How2QA,和VLEP)设置中实现了最先进的性能。
Depth-discriminative Metric Learning for Monocular 3D Object Detection
Wonhyeok Choi Mingyu Shin Sunghoon Im
研究问题:单目3D物体检测由于RGB图像中缺乏深度信息而面临重大挑战。
动机:许多现有方法通过为物体深度估计分配额外参数、利用额外的模块或数据来提高物体深度估计性能,而我们提出了一种新的度量学习方案,无需增加推理时间和模型大小,就能鼓励模型提取与视觉属性无关的深度判别特征。
方法:我们的方法采用距离保持函数来组织与地面真实对象深度相关的特征空间流形。提出的$(K,B,\epsilon)$准等距损失利用预先确定的成对距离限制作为调整对象描述符之间距离的指导,而不破坏自然特征流形的非线性。此外,我们还引入了一个辅助头来进行物体级深度估计,提高了深度质量,同时保持了推理时间。
效果:我们在各种基线上进行实验,展示了该方法的广泛应用性。结果显示,我们的方法在KITTI和Waymo上分别平均提高了23.51%和5.78%的性能。
Learning Mask-aware CLIP Representations for Zero-Shot Segmentation
Siyu Jiao Yunchao Wei Yaowei Wang Yao Zhao Humphrey Shi
研究问题:如何提高预训练视觉-语言模型在零样本分割任务上的性能。
动机:目前的预训练视觉-语言模型在处理零样本分割任务时,通常采用生成掩码建议并使用CLIP进行分类的方法,但这种方法存在大量的误报。
方法:提出一种名为Mask-aware Fine-tuning(MAFT)的简单有效方法。首先,设计了一种可以同时处理任意数量图像和掩码建议的Image-Proposals CLIP Encoder(IP-CLIP Encoder)。然后,设计了*mask-aware loss*和*self-distillation loss*来微调IP-CLIP Encoder,确保CLIP对不同的掩码建议具有响应性,同时不牺牲其可转移性。
效果:在流行的零样本基准测试中,使用MAFT可以将现有方法的性能大幅提高:在COCO数据集上提高了50.4%(+ 8.2%),在Pascal-VOC数据集上提高了81.8%(+ 3.2%),在ADE20K数据集上提高了8.7%(+4.3%)。
ConDaFormer: Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding
Lunhao Duan Shanshan Zhao Nan Xue Mingming Gong Gui-Song Xia Dacheng Tao
研究问题:如何有效地利用Transformer进行3D点云理解,特别是在处理大量点云数据时。
动机:现有的方法在处理大量的点云数据时,由于计算成本高和无法有效捕捉局部几何结构的问题,效果并不理想。
方法:本文提出了一种新的Transformer模块ConDaFormer,它将立方体窗口分解为三个正交的2D平面,降低了注意力模型中的点数,同时引入了深度卷积以捕捉局部几何信息。
效果:实验结果表明,ConDaFormer能够有效地捕捉长范围的上下文信息和局部先验知识,并在几个3D点云理解基准测试中取得了良好的效果。
Cross-Scale MAE: A Tale of Multiscale Exploitation in Remote Sensing
Maofeng Tang Andrei Liviu Cozma Konstantinos Georgiou Hairong Qi
研究问题:遥感图像分析面临独特的挑战,如广泛的地理覆盖范围、硬件限制和多尺度图像不对准等问题。本文旨在重新审视经典的多尺度表示学习问题,并在遥感图像理解的自监督学习框架下进行研究。
动机:由于遥感图像的独特性,传统的预训练语言模型在处理遥感图像时存在一些困难。因此,本文提出了一种基于掩码自动编码器(MAE)的自我监督模型Cross-Scale MAE,以解决遥感图像的多尺度表示学习问题。
方法:在预训练阶段,Cross-Scale MAE采用尺度增强技术和对比损失与生成损失来强制实施跨尺度一致性约束,以确保一致且有意义的表示,适用于各种下游任务。此外,我们的实现利用xFormers库在单个GPU上加速网络预训练,同时保持学到的表示的质量。
效果:实验评估表明,Cross-Scale MAE的性能优于标准的MAE和其他最先进的遥感MAE方法。
STREAMER: Streaming Representation Learning and Event Segmentation in a Hierarchical Manner
Ramy Mounir Sujal Vijayaraghavan Sudeep Sarkar
研究问题:如何以分层的方式对流式感知输入进行语义分组和分割。
动机:解决在流式感知输入中,如何将数据按照不同层次进行语义分组,并同时学习每个组的全局表示的问题。
方法:提出STREAMER模型,该模型逐层训练,适应输入领域的复杂性。每一层有两个主要目标:对未来进行准确预测,并为达到同一目标的其他层级提供必要信息。通过在不同级别检测预测误差峰值来构建事件层次结构,其中检测到的边界触发自底向上的信息流。在事件边界,一层的输入表示成为更高层输入。此外,设计了一个通信模块,在预测过程中促进上下信息的交换。
效果:在自我监督和流式训练方式下,模型只需一次遍历训练数据即可完成训练。在EPIC-KITCHENS数据集上进行的实验表明,模型在时间事件分割任务上表现良好。使用学习到的表示进行的事件检索实验也证明了模型的视频事件表示质量高。
Temporal Continual Learning with Prior Compensation for Human Motion Prediction
Jianwei Tang Jiangxin Sun Xiaotong Lin lifang zhang Wei-Shi Zheng Jian-Fang Hu
研究问题:本文旨在解决人体运动预测中,以往方法对不同时刻预测等同对待导致的研究问题:本文旨在解决人体运动预测中,以往方法对不同时刻预测等同对待导致的短期预测学习受阻和过去预测的先验信息在后续预测中的应用受限的问题。
动机:为了解决这些问题,作者提出了一种新的多阶段训练框架——时间持续学习(TCL),并引入了先验补偿因子(PCF)以更好地保留先验信息。
方法:通过理论推导,作者得出了更合理的优化目标,并将PCF引入模型训练以补偿丢失的先验信息。此外,TCL框架可以很容易地与不同的人体运动预测骨干模型集成,并适应各种数据集和应用。
效果:在四个人体运动预测基准数据集上的大量实验表明,TCL具有有效性和灵活性。
Keypoint-Augmented Self-Supervised Learning for Medical Image Segmentation with Limited Annotation
Zhangsihao Yang Mengwei Ren Kaize Ding Guido Gerig Yalin Wang
研究问题:如何通过预训练CNN模型(如UNet)来改善在低标注环境下的医学图像分割。
动机:尽管对比学习方法在提取全局和局部特征时取得了一些进展,但它们在捕捉生物解剖学中的关键长程空间依赖性方面存在限制。
方法:提出了一种关键点增强融合层,该层可以提取同时保留短程和长程自我注意力的特征表示。具体来说,我们在多个尺度上通过引入一个额外的输入来增强CNN特征图,该输入学习了局部化关键点特征之间的长程空间自我注意力。此外,我们还为该框架引入了全局和局部的自我监督预训练。
效果:实验结果表明,我们的方法在MRI和CT分割任务上都优于CNN和Transformer-based UNets,且在所有架构都使用随机初始化权重进行训练的情况下,我们的方法通过产生更鲁棒的自我注意力并实现最先进的分割结果,进一步超越了现有的自监督学习方法。
Self-Supervised Motion Magnification by Backpropagating Through Optical Flow
Zhaoying Pan Daniel Geng Andrew Owens
研究问题:本文旨在提出一种简单、自监督的方法,用于放大视频中的微小运动。
动机:现有的方法需要使用合成的放大数据集进行训练,而本文的方法避免了这一需求,利用了现有的光流估计器的能力。
方法:通过给定一个输入视频和一个放大因子,操纵视频使其新的光流按所需量进行缩放。通过提出的损失函数来训练模型,该函数估计生成视频的光流并惩罚其与给定放大因子的偏差。
效果:通过在一系列真实世界和合成视频上进行视觉质量和定量指标评估,证明了该方法的有效性。同时,该方法适用于有监督和无监督的光流方法。
FLSL: Feature-level Self-supervised Learning
Qing Su Anton Netchaev Hai Li Shihao Ji
研究问题:现有的自监督学习方法主要针对实例级别的表示,无法很好地泛化到密集预测任务,如目标检测和分割。
动机:为了将自监督学习与密集预测对齐,本文首次展示了视觉变换器(ViT)的潜在均值漂移聚类过程,该过程与自然图像语义(如物体和事物的世界)有很好的对齐。
方法:通过采用变压器进行联合嵌入和聚类,提出了一种双层特征聚类的自监督学习方法,称为特征级自我监督学习(FLSL)。
效果:实验表明,FLSL在密集预测任务中取得了显著的改进,在Mask R-CNN使用ViT-S/16和ViT-S/8作为主干的情况下,分别在MS-COCO上实现了44.9%(+2.8%)的AP和46.5%的AP在目标检测以及40.8%(+2.3%)的AP和42.1%的AP在实例分割上。FLSL在所有其他基准测试中始终优于现有的自监督学习方法,包括在UAVDT上的无人机目标检测和在DAVIS 2017上的视频实例分割。
OBJECT 3DIT: Language-guided 3D-aware Image Editing
Oscar Michel Anand Bhattad Eli VanderBilt Ranjay Krishna Aniruddha Kembhavi Tanmay Gupta
研究问题:现有的图像编辑工具通常忽视了图像背后的3D几何结构,导致编辑结果可能与图像形成的几何和光照条件脱节。
动机:为了解决这个问题,我们提出了语言引导的3D感知编辑任务,即根据语言指令编辑图像中的物体,同时保持与底层3D场景的一致性。
方法:我们创建了一个包含40万个编辑示例的基准数据集OBJect,并开发了用于四种编辑任务的单任务和多任务模型3DIT。
效果:实验结果表明,我们的模型能够理解整个场景的3D构成,考虑到周围的物体、表面、光照条件、阴影和物理上合理的物体配置。令人惊讶的是,仅在合成场景上训练的3DIT模型的编辑能力可以泛化到真实世界的图像。
Density of States Prediction of Crystalline Materials via Prompt-guided Multi-Modal Transformer
Namkyeong Lee Heewoong Noh Sungwon Kim Dongmin Hyun Gyoung S. Na Chanyoung Park
研究问题:如何从获得的表示中预测晶体材料的能带结构(DOS)。
动机:现有的方法主要关注获取高质量的晶体材料表示以进行DOS预测,而忽视了能量水平对DOS的影响。
方法:通过多模态转换器整合从晶体材料和能量中获得的异构信息,模拟晶体材料中的原子与各种能量级别的复杂关系进行DOS预测。
效果:在两种类型的DOS(声子DOS和电子DOS)以及各种真实场景的广泛实验中,DOSTransformer表现出优越性。
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
Vicente Vivanco Cepeda Gaurav Kumar Nayak Mubarak Shah
研究问题:全球地理定位旨在精确定位地球上任何地方拍摄的图像,由于地理景观的巨大变化,这个任务具有相当大的挑战。
动机:现有的基于图像检索的方法无法在全球范围内解决这个问题,因为构建一个覆盖整个世界的大图像库是不可行的。现有的方法将地球划分为离散的地理单元,将问题转化为分类任务,但其性能受到预定义类别的限制,当图像的位置与其类别中心有显著偏差时,通常会导致定位不准确。
方法:我们提出了GeoCLIP,一种受CLIP启发的新型图像到GPS检索方法,该方法强制对齐图像和其对应的GPS位置。GeoCLIP的位置编码器通过随机傅立叶特征使用位置编码来模拟地球作为一个连续函数,并构建了一个分层表示,以捕获不同分辨率的信息,从而产生一个语义丰富的高维特征,即使用于地理定位之外也是适用的。
效果:我们在基准数据集上进行了广泛的实验和消融研究,证明了我们方法的有效性。即使在只有20%的训练数据的情况下,我们也取得了有竞争力的性能,即使在有限的数据设置中也显示出其有效性。此外,我们还通过利用我们的图像编码器的CLIP主干,从文本查询的角度定性地展示了地理定位。
ConRad: Image Constrained Radiance Fields for 3D Generation from a Single Image
Senthil Purushwalkam Nikhil Naik
研究问题:如何从单张RGB图像重建3D对象?
动机:现有的方法在从文本提示生成3D模型方面取得了令人印象深刻的结果,但无法简单地根据输入的RGB数据进行条件设置。
方法:提出一种名为Image Constrained Radiance Fields(ConRad)的新型神经辐射场变体,通过结合预训练的扩散模型和单张RGB图像来优化ConRad表示的参数。
效果:实验表明,ConRad表示可以在简化图像细节保留的同时产生逼真的3D重建,与现有最先进的基线相比,我们的3D重建更能保持对输入的忠实度,同时在ShapeNet物体基准测试上显示出显著改善的定量性能。
LART: Neural Correspondence Learning with Latent Regularization Transformer for 3D Motion Transfer
Haoyu Chen Hao Tang Radu Timofte Luc Van Gool Guoying Zhao
研究问题:本文旨在解决将动态输入序列的移动转移到静态3D对象的问题,并实现高保真和逼真的视觉效果。
动机:现有的方法需要关键点标注或预定义源和目标网格之间的对应关系,且无法处理大型未见过的细节丰富的3D目标。
方法:提出一种名为LART的新型3D Transformer框架进行3D运动转移。通过精心设计的架构,LART能够隐式地学习对应关系,无需关键点标注或预定义对应关系,并能处理大型未见过的细节丰富的3D目标。此外,还引入了一种新的潜在度量正则化来改进运动生成。
效果:实验结果表明,提出的LART在少量AMASS数据集样本下就能生成具有合理视觉效果的运动,显示出高效的学习能力。该方法在运动转移、内容生成、时间插值和运动去噪等应用中具有潜力。
Hyper-HMM: aligning human brains and semantic features in a common latent event space
Caroline Lee Jane Han Ma Feilong Guo Jiahui James Haxby Christopher Baldassano
研究问题:现有的对齐方法主要关注空间超对齐(假设精确的时间对应)或时间对齐(假设精确的空间对应),本研究旨在提出一种同时对齐大脑中时间和空间特征的混合模型。
动机:自然刺激引发复杂的神经反应,这些反应在空间和时间属性上因人而异。当前的对齐方法无法同时考虑到这两个方面,因此需要一种新的模型来解决这个问题。
方法:研究者提出了一种称为“超HMM”的混合模型,该模型可以同时对齐大脑中的时间特性和空间特性。模型通过线性投影将体素映射到降维的潜在空间,并在其中将时序分割成相应的时间事件。这种方法允许追踪每个个体通过事件序列的心理轨迹,也允许与其他特征空间(如刺激内容)进行对齐。
效果:使用学生观看课堂讲座视频的fMRI数据集进行实验,结果显示,超HMM可以将所有参与者和视频的语义内容映射到一个共同的低维空间,并且这些映射可以推广到未包含在训练数据中的数据。这种新的模型为研究自然刺激引发的个体认知动态提供了新的视角。
Video-Mined Task Graphs for Keystep Recognition in Instructional Videos
Kumar Ashutosh Santhosh Kumar Ramakrishnan Triantafyllos Afouras Kristen Grauman
研究问题:如何通过理解人类在长视频中执行的多个关键步骤,以实现最终目标状态,来感知人类的行为。
动机:现有工作大多将关键步骤识别与更广泛的结构隔离开来,或者严格地将关键步骤限制在特定的顺序脚本中。
方法:我们提出从操作视频中自动发现任务图,以概率方式表示人们执行关键步骤的方式,然后利用此图对新视频中的关键步骤识别进行正则化。
效果:在多个真实世界教学视频数据集上,我们展示了其影响:更可靠的零样本关键步骤定位和改进的视频表示学习,超过了最先进的水平。
CorresNeRF: Image Correspondence Priors for Neural Radiance Fields
Yixing Lao Xiaogang Xu zhipeng cai Xihui Liu Hengshuang Zhao
研究问题:现有的神经辐射场(NeRF)模型在稀疏输入视图的挑战性场景下性能下降。
动机:提出一种利用图像对应关系先验监督NeRF训练的方法,以提高其在稀疏视图设置下的性能。
方法:通过添加关于对应点重投影误差和深度误差的损失项,将由现成方法计算的图像对应关系先验注入训练过程。
效果:实验结果表明,该方法在各种数据集上,无论是密度基础还是SDF基础的神经隐式表示,都能提高NeRF在稀疏视图设置下的性能,且在光度和几何度量上都优于先前的方法。
EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding
Shuhan Tan Tushar Nagarajan Kristen Grauman
研究问题:如何降低计算密集型的自我中心视频理解模型的计算成本,以适应更多实际应用。
动机:自我中心的视频理解模型在最近的研究中取得了进步,但其高昂的计算成本阻碍了其在许多现实世界的应用。
方法:提出EgoDistill,一种基于蒸馏的方法,通过结合稀疏视频帧的语义和轻量级的IMU阅读头部运动来重构重型自我中心视频片段特征。进一步设计了一种基于IMU的自我监督预训练策略。
效果:该方法显著提高了效率,需要的GFLOPs比等效的视频模型少200倍。在Ego4D和EPIC-Kitchens数据集上展示了其有效性,超越了最先进的高效视频理解方法。
FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses via Pixel-Aligned Scene Flow
Cameron Omid Smith Yilun Du Ayush Tewari Vincent Sitzmann
研究问题:如何从已定位的图像中重建3D神经场,以实现自我监督表示学习。
动机:现有的3D场景学习者在大规模视频数据上的应用受到其对精确相机姿态的依赖的限制,而这种依赖需要通过结构从运动中获取,成本高昂。
方法:我们提出了一种在线单次前向传递中联合重建相机姿态和3D神经场景表示的方法。首先,我们将帧到帧的光流提升为通过可微渲染的3D场景流,保留图像处理骨干的局部性和位移等变性。然后,通过加权最小二乘拟合场景流场进行SE(3)相机姿态估计。
效果:我们在多样化的真实世界视频数据集上进行了实验,结果显示我们的方法在传统上对优化基姿态估计技术具有挑战性的序列上表现稳健。
Asynchrony-Robust Collaborative Perception via Bird's Eye View Flow
Sizhe Wei Yuxi Wei Yue Hu Yifan Lu Yiqi Zhong Siheng Chen Ya Zhang
研究问题:多智能体系统中,由于通信延迟、中断和时钟不同步等问题,各智能体的感知能力受到限制。
动机:为了解决这一问题,本文提出了一种基于鸟瞰图流的异步协作感知系统CoBEVFlow。
方法:该系统通过补偿运动来对齐多个智能体发送的异步协作消息,以实现协作感知。具体来说,它使用鸟瞰图流来模拟场景中的运动,并将异步感知特征重新分配到适当的位置,以减轻异步性的影响。
效果:实验结果表明,CoBEVFlow在处理不规则连续时间戳的异步协作消息时无需进行离散化,并且只传输原始感知特征,避免了额外的噪声。在模拟不同真实世界场景的合成协作感知数据集IRV2V和真实世界数据集DAIR-V2X上进行的大量实验表明,CoBEVFlow始终优于其他基线,并在极端异步设置中表现稳健。
ViSt3D: Video Stylization with 3D CNN
Ayush Pande Gaurav Sharma
研究问题:如何有效地对视频进行风格化处理。
动机:虽然图像风格化在近期取得了快速的发展,但视频风格化由于其复杂性,相对来说探索的较少。
方法:提出了一种直接使用3D CNN进行视频风格化的方法,该方法首先将视频中的动作和外观进行解耦,然后对外观部分进行风格化处理,最后再添加回动作部分并解码得到最终的风格化视频。
效果:首次成功地使用3D CNN进行了视频风格化处理,并且在纹理风格化方面优于现有的2D方法。
Color Equivariant Convolutional Networks
Attila Lengyel Ombretta Strafforello Robert-Jan Bruintjes Alexander Gielisse Jan van Gemert
研究问题:如何在保持颜色信息的同时,使卷积神经网络对颜色的变换具有不变性?
动机:现有的卷积神经网络在处理由于意外记录条件引起的颜色变化时会面临困难,而颜色不变性虽然解决了这个问题,但会移除所有颜色信息,牺牲了判别能力。
方法:提出颜色等变卷积(CEConvs),这是一种新的深度学习构建模块,可以在颜色谱上共享形状特征,同时保留重要的颜色信息。通过在神经网络中引入色调变换的参数共享,将等变性的概念从几何变换扩展到光度变换。
效果:实验结果表明,CEConvs在各种任务的下游性能和对颜色变化的鲁棒性方面都有显著改进,包括训练-测试分布偏移。这种方法可以无缝集成到现有的架构中,如ResNets,为解决CNN中基于颜色的变化提供了有希望的解决方案。
Flow-Based Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection
Haibao Yu Yingjuan Tang Enze Xie Jilei Mao Ping Luo Zaiqing Nie
研究问题:如何克服交通环境中的时间异步性和有限的通信条件,提高自动驾驶感知能力。
动机:目前的车辆-基础设施协同3D(VIC3D)对象检测方法存在融合不准确的问题,限制了基础设施数据的利用。
方法:提出特征流网络(FFNet),这是一种基于特征流的特征融合框架,通过预测未来特征来补偿时间异步性,并利用序列化基础设施帧的时序连贯性传输特征流,同时引入自监督训练方法,使FFNet能从原始基础设施序列中生成具有特征预测能力的特征流。
效果:实验结果表明,该方法优于现有的协同检测方法,且只需要约1/100的原始数据传输成本,并在DAIR-V2X数据集上实现了所有延迟在一个模型中的覆盖。
Semantic segmentation of sparse irregular point clouds for leaf/wood discrimination
Yuchen BAI Jean-Baptiste Durand Grégoire Laurent Vincent Florence Forbes
研究问题:如何从无人机获取的稀疏点云中准确区分树叶和树枝。
动机:由于树叶面积对植物与大气之间的气体交换模型影响重大,因此需要一种能够精确测量森林叶面积的方法。同时,无人机可以频繁地重新访问以追踪植被对气候变化的反应,但搭载在无人机上的微型传感器通常只能提供有限密度的点云,且受遮挡影响,点云密度从树冠顶部到底部会显著下降。
方法:提出了一种基于Pointnet++架构的神经网络模型,只使用点的几何信息(不包括任何光谱信息)。为了应对局部数据稀疏性,提出了一种创新的采样方案,旨在保留重要的局部几何信息。还提出了一种适应严重类别不平衡的损失函数。
效果:实验结果表明,该模型在处理无人机点云上优于最先进的替代方案。未来可能会考虑从树冠下方获取更密集的点云来进一步提高模型性能。
Learning Visual Prior via Generative Pre-Training
Jinheng Xie Kai Ye Yudong Li Yuexiang Li Kevin Qinghong Lin Yefeng Zheng Linlin Shen Mike Zheng Shou
研究问题:如何通过深度学习模型学习并显式表示视觉数据中的各种特性,如物体位置和形状,作为视觉先验,并影响许多视觉任务。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:受语言模型进展的启发,我们提出了一种通过生成预训练学习视觉先验的方法,称为VisorGPT。通过将视觉位置(例如边界框、人体姿势和实例掩码)离散化为序列,VisorGPT可以通过最大化可能性来建模视觉先验。此外,我们还研究了提示工程,以统一各种视觉位置,并能够从学习的先验中自定义采样顺序输出。
效果:实验结果表明,VisorGPT在建模视觉先验和扩展到新场景方面非常有效,这可能会激发我们将离散视觉位置整合到当前语言模型的学习范式中,以进一步感知视觉世界。
DreamWaltz: Make a Scene with Complex 3D Animatable Avatars
Yukun Huang Jianan Wang Ailing Zeng He CAO Xianbiao Qi Yukai Shi Zheng-Jun Zha Lei Zhang
研究问题:如何生成和动画化高质量的3D人物模型。
动机:尽管现有的方法在基于文本的常见物体3D生成方面取得了一些成果,但创建高质量且可动画化的3D人物模型仍然具有挑战性。
方法:提出了一种名为DreamWaltz的新框架,该框架通过文本指导和人体参数先验来生成和动画化复杂的3D人物模型。它使用3D一致的遮挡感知得分蒸馏采样(SDS)优化典型姿势的隐式神经表示,并通过3D感知骨架条件提供视图对齐的监督,以实现无瑕疵和多面体的复杂人物生成。对于动画,该方法从各种姿势的扩散模型的丰富图像先验中学习了一个可动画化的3D人物表示,可以在不重新训练的情况下为任意姿势的复杂非绑定人物生成动画。
效果:广泛的评估表明,DreamWaltz是一种有效且稳健的方法,可以创建具有复杂形状、外观以及用于动画的新颖姿势的3D人物模型。该框架还进一步实现了具有多样化组合的复杂场景的创建,包括人物-人物、人物-物体和人物-场景交互。
Learning Dictionary for Visual Attention
Yingjie Liu Xuan Liu Hui Yu XUAN TANG Xian Wei
研究问题:如何利用注意力机制捕捉数据中的全局结构和长距离关系,提高深度视觉模型在各种计算机视觉任务上的性能。
动机:目前的注意力机制在捕获全局结构和长距离关系方面表现出色,可以提升深度视觉模型在多种计算机视觉任务上的表现。
方法:提出一种基于字典学习的注意模块(Dic-Attn),将此问题建模为稀疏先验的分解和重建问题,受到人类视觉感知系统中稀疏编码的启发。该模块将输入分解为字典和相应的稀疏表示,使得能够解耦视觉数据中的潜在非线性结构信息,并重建注意力嵌入。通过在空间和通道域应用转换操作,动态选择字典的原子和稀疏表示。最后,更新的字典和稀疏表示捕获全局上下文信息并重建注意力图。
效果:在各种计算机视觉任务上进行大量实验,如图像和点云分类,验证了该方法取得了良好的性能,并与最先进的注意力方法进行了强有力的竞争比较。
3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive Physics under Challenging Scenes
Haotian Xue Antonio Torralba Joshua B. Tenenbaum Daniel LK Yamins Yunzhu Li Hsiao-Yu Tung
研究问题:如何从复杂的场景视频中学习三维基础的视觉直观物理模型。
动机:人类对于给定动作下,场景如何随时间演变有强烈的直觉,这种直觉通常被称为视觉直观物理,是进行有效操作以实现期望结果的关键能力。
方法:本文提出了一个框架,该框架能够从包含流体的复杂场景视频中学习三维基础的视觉直观物理模型。该方法由一个条件神经辐射场(NeRF)风格的视觉前端和一个基于3D点的动态预测后端组成,通过它们可以施加强大的关联和结构归纳偏置来捕获底层环境的结构。
效果:实验结果表明,我们的模型可以从原始图像中学习并进行长期的未来预测,并在复杂场景下的推断设置中表现出强大的泛化能力。
VPP: Efficient Conditional 3D Generation via Voxel-Point Progressive Representation
Zekun Qi Muzhou Yu Runpei Dong Kaisheng Ma
研究问题:本文旨在解决条件3D生成的低推理效率、生成类别有限和下游应用受限的问题。
动机:目前的3D生成方法在推理效率、生成类别和应用范围上存在限制,需要进行改进。
方法:本文提出了一种通过体素点渐进表示(VPP)的渐进生成方法。该方法利用了提出的体素语义生成器的结构化体素表示和点上采样器的非结构化点表示的稀疏性,实现了多类别对象的高效生成。
效果:实验结果表明,VPP能够在0.2秒内生成高质量的8K点云,并在各种3D下游任务中表现出优秀的表示转移性能。
Triangulation Residual Loss for Data-efficient 3D Pose Estimation
Jiachen Zhao Tao Yu Liang An Yipeng Huang Fang Deng Qionghai Dai
研究问题:如何有效地利用多视角无标记数据进行三维姿态估计。
动机:现有的三维监督模型需要大规模的三维标注数据集,但现有数据量不足以训练出理想性能的监督模型,特别是在动物姿态估计方面。
方法:提出三角测量残差损失(TR loss)用于多视角三维姿态估计的数据高效训练。该方法通过最小化三角测量矩阵的最小奇异值,在无需三维监督的情况下对初始二维关键点估计进行微调。
效果:在Human3.6M数据集上,仅使用5%的二维标注训练数据,该方法就实现了25.8mm的MPJPE和具有竞争力的28.7mm MPJPE,证明了其在数据效率训练上的能力。
RayDF: Neural Ray-surface Distance Fields with Multi-view Consistency
Zhuoman Liu Bo Yang Yan Luximon Ajay Kumar Jinxi Li
研究问题:本文研究了三维形状的连续表示问题。
动机:现有的成功方法大多是基于坐标的隐式神经表示,但它们在渲染新视图或恢复显式表面点方面效率低下。一些工作开始将3D形状公式化为基于射线的神经函数,但由于缺乏多视图几何一致性,学习到的结构较差。
方法:我们提出了一个新的框架RayDF,包括三个主要组件:1)简单的射线-表面距离场,2)新颖的双射线可见性分类器,3)一个多视图一致性优化模块,以驱动学习的射线-表面距离具有多视图几何一致性。
效果:我们在三个公共数据集上广泛评估了我们的方法,在合成和具有挑战性的现实世界3D场景中的3D表面点重建方面表现出显著的性能,明显超过了现有的基于坐标和基于射线的基线。最值得注意的是,我们的方法比基于坐标的方法快1000倍的速度来渲染一个800x800的深度图像,显示出我们的方法在3D形状表示方面的优越性。我们的代码和数据可在https://github.com/vLAR-group/RayDF获取。
Mask Propagation for Efficient Video Semantic Segmentation
Yuetian Weng Mingfei Han Haoyu He Mingjie Li Lina Yao Xiaojun Chang Bohan Zhuang
研究问题:视频语义分割(VSS)涉及为视频序列中的每个像素分配一个语义标签。
动机:虽然现有的方法通过在视频帧之间利用时间关系扩展图像语义分割模型,取得了良好的效果,但这些方法的计算成本往往很高。
方法:本文提出了一种名为MPVSS的高效掩码传播框架。首先,我们在稀疏的关键帧上使用强大的基于查询的图像分割器生成准确的二进制掩码和类别预测。然后,我们设计了一个流估计模块,利用学习到的查询生成一组与关键帧上的掩码预测相关的分段感知流图。最后,将掩码-流对进行变形,作为非关键帧上的掩码预测。通过重用关键帧上的预测,我们避免了需要单独处理大量视频帧的问题,从而减轻了时间冗余并显著降低了计算成本。
效果:在VSPW和Cityscapes上的大量实验表明,我们的掩码传播框架实现了最先进的准确性和效率权衡。例如,我们的Swin-L主干模型在VSPW数据集上的性能比使用MiT-B5的MRCFA提高了4.0% mIoU,仅需要26% FLOPs。此外,与每帧Mask2Former基线相比,我们的框架在Cityscapes验证集上最多减少了4×FLOPs,仅导致最多2% mIoU下降。代码可在https://github.com/ziplab/MPVSS获取。
Learning Dense Flow Field for Highly-accurate Cross-view Camera Localization
Zhenbo Song XiangHui Ze Jianfeng Lu Yujiao Shi
研究问题:本文旨在解决如何估计地面图像相对于包含局部环境的卫星图像的3自由度相机姿态的问题。
动机:现有的方法无法充分利用像素级别的特征度量,因此我们提出了一种新颖的端到端方法,通过学习地面和卫星图像对中的密集像素级流场来计算相机姿态。
方法:我们的方法通过在像素级别构建特征度量,实现了全图像监督,以学习不同视角下的显著几何配置和视觉外观。具体来说,我们的方法使用两个不同的卷积网络进行地面和卫星特征提取。然后,我们使用固定的相机高度假设将地面特征图投影到鸟瞰图(BEV)以实现初步的几何对齐。为了进一步建立BEV和卫星特征之间的内容关联,我们引入了一个残差卷积块来优化投影的BEV特征。我们在基于RAFT的流解码器网络上对优化后的BEV特征图和卫星特征图执行光流估计。获得密集流对应关系后,我们应用最小二乘法过滤匹配的内点并回归地面相机姿态。
效果:大量实验表明,我们的方法相比最先进的方法有显著改进。特别是在KITTI、Ford multi-AV、VIGOR和Oxford RobotCar数据集上,我们的方法分别将中位定位误差降低了89%、19%、80%和35%。
Volume Feature Rendering for Fast Neural Radiance Field Reconstruction
Kang Han Wei Xiang Lu Yu
研究问题:本文旨在解决在NeRF渲染过程中,颜色神经网络评估次数过多导致的计算复杂度高的问题。
动机:目前的NeRF渲染过程中,颜色神经网络的多次评估是计算复杂度的主要来源,限制了其渲染速度。
方法:本文提出了一种体积特征渲染(VFR)方法,将光线查询的特征向量整合为一个特征向量,然后通过颜色神经网络转换为最终像素颜色,从而减少了颜色神经网络的评估次数。
效果:实验结果表明,该方法在合成和真实世界数据集上都达到了最先进的渲染质量,同时与现有方法相比,训练时间更短。
LICO: Explainable Models with Language-Image COnsistency
Yiming Lei Zilong Li Yangyang Li Junping Zhang Hongming Shan
研究问题:如何解释深度学习模型的决策过程?
动机:现有的解释方法如Grad-CAM等,由于仅依赖类别标签生成注意力图,导致图像和显著性图之间的对应关系往往不完整。
方法:本文提出了一种名为LICO的语言-图像一致性模型,通过将可学习的语言学提示与相应的视觉特征进行粗到细的关联,以实现可解释的图像分类。
效果:在八个基准数据集上的大量实验结果表明,所提出的LICO在生成更具解释性的注意力图方面取得了显著改进,并与现有的解释方法(如Grad-CAM)相结合。值得注意的是,LICO在不引入任何计算开销的情况下提高了现有模型的分类性能。
FreeMask: Synthetic Images with Dense Annotations Make Stronger Segmentation Models
Lihe Yang Xiaogang Xu Bingyi Kang Yinghuan Shi Hengshuang Zhao
研究问题:语义分割由于需要精细的标注,数据收集和标注过程繁重且昂贵。
动机:提出FreeMask,利用生成模型产生的合成图像来减轻数据收集和标注的负担。
方法:首先,我们根据真实数据集提供的语义遮罩合成丰富的训练图像,为语义分割模型产生额外的对齐图像-遮罩训练对。然后,我们通过联合训练或预训练真实图像来研究合成图像的作用。同时,我们设计了一个强大的过滤原则来抑制错误合成的区域。此外,我们建议不平等地对待不同的语义遮罩,优先处理更难的遮罩并为它们采样更多的相应合成图像。
效果:实验结果表明,无论是联合训练还是使用我们的过滤和重新采样的合成图像进行预训练,都可以大大提高分割模型的性能。例如,在ADE20K上从48.7提高到52.0。
Recaptured Raw Screen Image and Video Demoiréing via Channel and Spatial Modulations
Huanjing Yue Yijia Cheng Xin Liu Jingyu Yang
研究问题:智能手机摄像头捕捉的屏幕内容已成为信息共享的常见方式,但这些图像和视频经常研究问题:智能手机摄像头捕捉的屏幕内容已成为信息共享的常见方式,但这些图像和视频经常受到由相机滤镜阵列和数字显示网格之间频率混叠引起的莫尔图案的损害。
动机:观察到原始域中的莫尔图案比sRGB域中的更简单,并且原始颜色通道中的莫尔图案具有不同的属性。因此,提出了一种针对原始输入的图像和视频去莫尔网络。
方法:引入了一个颜色分离的特征分支,并通过通道和空间调制与传统的特征混合分支融合。具体来说,通道调制利用调制的颜色分离特征增强颜色混合特征。空间调制利用具有大感受野的特征来调制具有小感受野的特征。此外,建立了第一个良好对齐的原始视频去莫尔(RawVDemoiré)数据集,并提出了通过插入交替模式进行有效时间对齐的方法。
效果:实验证明,该方法在图像和视频去莫尔方面都取得了最先进的性能。该数据集和代码将在本工作被接受后发布。
Activity Grammars for Temporal Action Segmentation
Dayoung Gong Joonseok Lee Deunsol Jung Suha Kwak Minsu Cho
研究问题:如何对未修剪的活动视频进行时间动作分割。
动机:现有的方法无法理解多级语义的组成结构,导致时间动作分割任务具有挑战性。
方法:提出一种有效的活动语法来指导神经网络的时间动作分割预测。设计了一种新的语法归纳算法KARI从动作序列数据中提取强大的上下文无关语法,并开发了一种高效的通用解析器BEP,根据归纳出的语法和递归规则将帧级别的概率分布转换为可靠的动作序列。
效果:在两个标准基准测试集Breakfast和50 Salads上,该方法在性能和可解释性方面都显著提高了时间动作分割的效果。
GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER
Mingzhen Sun Weining Wang Zihan Qin Jiahui Sun Sihan Chen Jing Liu
研究问题:本文旨在解决视频生成中的全局连贯性和局部真实性问题。
动机:目前的非自回归方法在生成视频时,往往无法同时保证全局连贯性和局部真实性。
方法:本文提出了一种新的非自回归方法GLOBER,首先通过视频编码器将视频编码为全局特征,然后基于这些全局特征,通过一个建立在扩散模型上的视频解码器,以非自回归的方式合成视频帧。
效果:实验结果表明,该方法在多个基准测试上都取得了新的最先进的结果,有效地提高了视频生成的全局连贯性和局部真实性。
Learning Adaptive Tensorial Density Fields for Clean Cryo-ET Reconstruction
YUANHAO WANG Ramzi Idoughi Wolfgang Heidrich
研究问题:如何从倾斜系列低温电子显微镜(cryo-ET)数据重建3D结构。
动机:cryo-ET是一种强大的成像技术,但面临诸如缺失楔形采集、大数据量和高噪声水平等挑战。
方法:提出了一种基于学习的框架,使用自适应张量基表示来表示扫描样本的3D密度场,优化四叉树结构对感兴趣体积进行划分,学习每个节点中表示密度场的张量的向量矩阵分解,并使用结合可微分断层形成模型和三种正则化项(总变分、边界一致性约束和各向同性傅里叶先验)的损失函数。
效果:通过合成数据和真实数据展示了该框架优于现有方法,提高了重建质量,同时减少了计算时间和内存占用。
Fine-Grained Cross-View Geo-Localization Using a Correlation-Aware Homography Estimator
Xiaolong Wang Runsen Xu Zhuofan Cui Zeyu Wan Yu Zhang
研究问题:本文提出了一种新的细粒度跨视图地理定位方法。
动机:现有的方法在处理地面图像和卫星图像对齐时,存在遮挡、重叠范围小和季节性变化等问题。
方法:我们首先采用可微分的球面变换,将地面图像的视角与卫星地图对齐,然后将地面图像和航空图像放在同一视角和同一平面上,将问题转化为图像对齐问题。为了解决这些问题,我们提出了一种鲁棒的相关感知单应性估计器,用于对齐转换后的地面图像和卫星图像的相似部分。
效果:通过使用单应性矩阵将转换后的地面图像的中心点映射到卫星图像,并确定地面相机的方向,我们的方法实现了亚像素分辨率和米级GPS精度。在VIGOR基准测试中,我们的方法在相同区域和跨区域泛化任务上分别将平均度量定位误差降低了21.3%和32.4%,在KITTI基准测试的相同区域评估中降低了34.4%。
Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition
Shuhuai Ren Aston Zhang Yi Zhu Shuai Zhang Shuai Zheng Mu Li Alex Smola Xu Sun
研究问题:本文提出了一种名为POMP的视觉-语言模型预训练方法。
动机:为了提高视觉识别任务的性能,需要开发一种能有效压缩语义信息并具有强迁移能力的视觉概念提示。
方法:通过使用大规模文本语料库和知识图谱进行联合训练,POMP能够有效地捕捉到丰富的视觉概念,并在各种视觉识别任务中直接应用,以零样本的方式提升识别性能。
效果:实验结果表明,POMP在21个数据集上取得了最先进的性能,例如在10个分类数据集上的平均准确率为67.0%(比CoOp高出3.1%),在开放式词汇Pascal VOC分割任务上的hIoU为84.4%(比ZSSeg高出6.9%)。
From ViT Features to Training-free Video Object Segmentation via Streaming-data Mixture Models
Roy Uziel Or Dinari Oren Freifeld
研究问题:本文旨在解决半监督视频物体分割任务中的问题,即如何利用第一帧的二值掩码预测后续帧的物体掩码。
动机:现有的主要解决方案存在两个主要缺点:1)对视频的昂贵且通常需要监督的训练;2)推理过程中的大内存占用。
方法:本文提出了一种无需训练的解决方案,具有小内存占用,并取得了最先进的结果。该方法将预训练的基于深度学习的特征(在静态图像上训练)与更经典的流数据聚类方法相结合。
效果:在关键的基准测试中,如DAVIS-2017和YouTube-VOS 2018验证数据集,该方法表现出色。此外,由于基于集群的紧凑表示的低内存占用,该方法可以很好地扩展到高分辨率的ViT特征。
NeRF-IBVS: Visual Servo Based on NeRF for Visual Localization and Navigation
Yuanze Wang Yichao Yan Dianxi Shi Wenhan Zhu Jianqiang Xia Tan Jeff Songchang Jin KE GAO XIAOBO LI Xiaokang Yang
研究问题:如何仅使用少量定位图像进行准确的视觉定位?
动机:获取大量定位图像和密集的3D标签在现实世界中具有挑战性和成本高昂。
方法:利用少量的定位图像和NeRF提供的粗略伪3D标签训练坐标回归网络,然后通过PNP从回归网络估计粗略姿态,最后使用NeRF提供的场景先验进行基于图像的视觉伺服(IBVS)的姿态优化。
效果:在7-Scenes和12-Scenes数据集上的大量实验表明,该方法在相同设置下优于最先进的方法,只需要5%到25%的训练数据。此外,该方法可以自然扩展到基于IBVS的视觉导航任务,并在模拟实验中验证了其有效性。
Incomplete Multimodality-Diffused Emotion Recognition
Yuanzhi Wang Yong Li Zhen Cui
研究问题:本文旨在解决在现实场景中,由于模态信息的缺失导致的人脸情绪识别(MER)性能下降的问题。
动机:与单一模态相比,多模态信息具有互补性,有助于理解人的情绪。然而,在实际场景中,模态信息的缺失会阻碍多模态理解,降低MER的性能。
方法:本文提出了一种不完全多模态扩散情绪识别(IMDer)方法来应对模态信息缺失下的MER挑战。IMDer利用基于得分的扩散模型来恢复缺失的模态信息,该模型将输入的高斯噪声映射到缺失模态的期望分布空间,并按照其原始分布恢复缺失数据。特别是,为了减少缺失模态和恢复模态之间的语义歧义,将可用的模态作为条件来引导和优化扩散基恢复过程。
效果:实验结果表明,IMDer在各种缺失模态模式下都能获得最先进的MER准确性。
Object-Centric Learning for Real-World Videos by Predicting Temporal Feature Similarities
Andrii Zadaianchuk Maximilian Seitzer Georg Martius
研究问题:如何利用大规模未标注的视频数据集进行基于对象的学习,以获取结构化表示。
动机:无监督的视频对象中心学习是一条有前景的途径,可以从大规模的未标注视频集合中学习结构化表示,但之前的方法只能在有限的领域内扩展到真实世界的数据集中。
方法:我们提出了一种新的方法,使用预训练的自监督特征作为形式的时间特征相似性损失。这种损失编码了图像补丁之间的语义和时间相关性,是一种引入运动偏差的自然方式用于对象发现。
效果:实验结果表明,这种方法在具有挑战性的合成MOVi数据集上取得了最先进的性能。当与特征重建损失结合使用时,我们的模型是第一个能够扩展到像YouTube-VIS这样的无约束视频数据集的对象中心视频模型。
XAGen: 3D Expressive Human Avatars Generation
Zhongcong Xu Jianfeng Zhang Jun Hao Liew Jiashi Feng Mike Zheng Shou
研究问题:目前的3D-aware GAN模型主要关注身体主要关节的控制,忽视了面部表情、颌部姿势、手部姿势等表达属性的操纵。
动机:为了解决这一问题,我们提出了XAGen,这是第一个能够对人形化身进行身体、面部和手部表达控制的3D生成模型。
方法:我们设计了一种多尺度、多部分的3D表示法来模拟面部和手部的精细细节,并基于此提出了一种多部分渲染技术,将身体的合成与面部和手部的合成分离,以简化模型训练并提高几何质量。此外,我们还设计了多部分判别器,根据外观和细粒度控制能力评估生成的化身的质量。
效果:实验表明,XAGen在真实性、多样性和表达控制能力方面超越了现有的最佳方法。
MG-ViT: A Multi-Granularity Method for Compact and Efficient Vision Transformers
Yu Zhang Yepeng Liu Duoqian Miao Qi Zhang Yiwei Shi Liang Hu
研究问题:如何降低视觉变换器(ViT)的计算成本。
动机:现有的压缩ViT的研究大多采用单一粒度分割图像,忽视了图像中的重要信息往往集中在少数区域,需要多粒度的注意力分配。
方法:提出一种简单而有效的多粒度策略来压缩ViT,并设计了一个两阶段的多粒度框架MG-ViT,以平衡ViT的性能和计算成本。在单粒度推理阶段,输入图像被分割成少量小块进行简单推理;如果必要,会启动多粒度推理阶段,将重要块进一步细分为更细粒度的块进行后续推理。此外,我们将多粒度策略扩展到分层ViT,用于检测和分割等下游任务。
效果:大量实验证明多粒度策略的有效性。例如,在ImageNet上,MG-ViT在不损失性能的情况下,减少了LV-ViT-S 47%的FLOPs和DeiT-S 56%的FLOPs。
Exploiting Contextual Objects and Relations for 3D Visual Grounding
Li Yang Chunfeng Yuan Ziqi Zhang Zhongang Qi Yan Xu Wei Liu Ying Shan Bing Li Weiping Yang Peng Li Yan Wang Weiming Hu
研究问题:如何通过自然语言输入在3D场景中识别视觉对象,这是使机器理解和参与真实世界环境的关键任务。
动机:由于需要捕捉3D上下文信息以区分目标对象和复杂3D场景,这个任务具有挑战性。缺乏对上下文对象和关系的注释进一步加剧了困难。
方法:我们提出了一种新的模型CORE-3DVG,通过显式学习上下文对象和关系来解决这些问题。我们的方法通过三个顺序模块化网络完成3D视觉定位,包括一个文本引导的对象检测网络、一个关系匹配网络和一个目标识别网络。在训练过程中,我们引入了一个伪标签自我生成策略和一个弱监督方法来分别促进上下文对象和关系的学习。
效果:我们在具有挑战性的Nr3D、Sr3D和ScanRefer数据集上验证了我们的模型,并展示了最先进的性能。
SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D Object Pose Estimation
Haobo Jiang Mathieu Salzmann Zheng Dang Jin Xie Jian Yang
研究问题:本文旨在提出一种基于SE(3)扩散模型的点云注册框架,用于现实世界中6D物体姿态估计。
动机:现有的方法在处理真实世界场景中的6D物体姿态估计时存在一些问题,如精确度不高等。因此,本文提出了一种新的基于SE(3)扩散模型的点云注册框架。
方法:该框架将3D注册任务表述为一个去噪扩散过程,通过逐步注入噪声(扰动转换)来逐渐优化源点云的姿态,以获得与模型点云的精确对齐。训练过程中包括两个操作:SE(3)扩散过程和SE(3)反向过程。
效果:实验结果表明,该扩散注册框架在TUD-L、LINEMOD和Occluded-LINEMOD等真实世界数据集上表现出优秀的6D物体姿态估计性能。
DiViNeT: 3D Reconstruction from Disparate Views using Neural Template Regularization
Aditya Vora Akshay Gadi Patil Hao Zhang
研究问题:本文旨在提出一种基于体积渲染的神经表面重建方法,该方法只需要最少三个不同的RGB图像作为输入。
动机:现有的表面重建方法在处理稀疏视图时存在严重的问题,导致重建结果中存在显著的间隙。为了解决这个问题,我们提出了一种新的方法,通过学习一组神经网络模板作为表面先验来对重建进行正则化。
方法:我们的方法被命名为DiViNet,它分为两个阶段。第一阶段在不同的场景中学习模板,形式为3D高斯函数,无需3D监督。在重建阶段,我们的预测模板作为锚点帮助“缝合”稀疏区域的曲面。
效果:实验结果表明,我们的方法不仅能够完成曲面几何的重建,而且能在一定程度上从稀疏的输入视图中重建出曲面的细节。在DTU和BlendedMVS数据集上,我们的方法在处理这种稀疏视图时实现了最好的重建质量,而且在使用密集视图作为输入时,其表现与竞争方法相当甚至更好。
Unleash the Potential of Image Branch for Cross-modal 3D Object Detection
Yifan Zhang Qijian Zhang Junhui Hou Yixuan Yuan Guoliang Xing
研究问题:现有的跨模态3D检测器没有充分利用图像信息,以解决基于激光雷达的检测器的瓶颈问题。
动机:为了实现可靠和精确的场景理解,自动驾驶汽车通常结合多种传感模式,利用其互补属性。
方法:本文提出了一种新的跨模态3D物体检测器,名为UPIDet,旨在从两个方面释放图像分支的潜力。首先,UPIDet引入了一个新的2D辅助任务,称为归一化局部坐标图估计。这种方法使得可以从图像模态学习局部空间感知特征,以补充稀疏的点云。其次,我们发现通过从图像分支的训练目标反向传播的梯度,可以利用简洁而有效的点到像素模块增强点云主干的表示能力。
效果:大量的实验和消融研究验证了我们的方法的有效性。值得注意的是,我们在竞争激烈的KITTI基准测试中获得了自行车类别的最高排名。源代码可在https://github.com/Eaphan/UPIDet获取。
Weakly Supervised 3D Open-vocabulary Segmentation
Kunhao Liu Fangneng Zhan Jiahui Zhang MUYU XU Yingchen Yu Abdulmotaleb El Saddik Christian Theobalt Eric Xing Shijian Lu
研究问题:如何克服缺乏大规模和多样化的3D开放词汇分割数据集的问题,训练出强大且具有泛化能力的模型。
动机:3D开放词汇分割是计算机视觉研究的基本功能,但目前由于缺乏大规模的训练数据,这一任务进展缓慢。
方法:利用预训练的2D开放词汇分割模型CLIP和DINO的知识,通过弱监督的方式解决3D开放词汇分割的挑战。具体地,只给出场景中物体的开放词汇文本描述,将CLIP和DINO的开放词汇多模态知识和对象推理能力提炼到一个神经辐射场(NeRF)中,有效地将2D特征提升到一致的3D分割。
效果:实验表明,该方法在某些场景中甚至优于使用分割注释进行完全监督训练的模型,说明可以从2D图像和文本-图像对有效学习3D开放词汇分割。
LightSpeed: Light and Fast Neural Light Fields on Mobile Devices
Aarush Gupta Junli Cao Chaoyang Wang Ju Hu Sergey Tulyakov Jian Ren Laszlo Attila Jeni
研究问题:如何在移动设备上实时生成新视角的图像?
动机:由于计算能力和存储空间的限制,在移动设备上进行实时新颖视角图像合成具有挑战性。
方法:利用经典的光片(双平面)表示法,学习从光线表示到像素颜色的直接映射,以实现高效的神经光场学习。
效果:该方法不仅提供了比现有光场方法更好的渲染质量,而且在渲染质量和速度之间取得了更好的平衡。
Fine-Grained Visual Prompting
Lingfeng Yang Yueze Wang Xiang Li Xinlong Wang Jian Yang
研究问题:现有的视觉语言模型在实例级别的任务中,如精确定位和识别,性能有限。
动机:尽管已有的视觉提示设计(如彩色框或圈)可以改善模型对感兴趣对象的认识,但与语言提示相比,视觉提示的设计很少被探索。
方法:本文通过探索更精细的标记,如分割掩码及其变体,仔细研究了视觉提示设计。同时引入了一个利用从通用分割模型获得的像素级注释进行细粒度视觉提示的新型零样本框架。
效果:实验结果表明,被称为模糊反向掩码的直接应用模糊技术在目标掩码外部显示出卓越的效果。这种提示策略利用精确的掩码注释减少对弱相关区域的聚焦,同时保持目标和周围背景的空间连贯性。Fine-grained Visual Prompting (FGVP)在参考COCO、RefCOCO+和RefCOCOg基准测试中的指代表达式零样本理解上表现出优越的性能。它比现有方法平均提高了3.0%到4.6%,在RefCOCO+测试子集上的最大改进达到了12.5%。在PACO数据集上进行的部件检测实验进一步验证了FGVP优于现有的视觉提示技术。
DSR: Dynamical Surface Representation as Implicit Neural Networks for Protein
Daiwen Sun He Huang Yao Li Xinqi Gong Qiwei Ye
研究问题:本文旨在提出一种新的基于神经网络的方法,通过3D和时间上蛋白质表面的隐式表示来模拟蛋白质动力学。
动机:现有的模拟蛋白质动力学的方法存在局限性,需要一种更有效、可扩展的新方法。
方法:该方法利用有符号距离函数(SDFs)的零水平集来表示蛋白质表面,实现蛋白质动态在时间和空间上的连续表示。
效果:实验结果表明,该方法能准确捕捉蛋白质动态轨迹,并能在3D和时间上进行插值和外推。这是首次成功模拟大规模蛋白质动态的研究,为蛋白质动力学研究提供了一种有前景的新方法。
Achieving Cross Modal Generalization with Multimodal Unified Representation
Yan Xia Hai Huang Jieming Zhu Zhou Zhao
研究问题:本文提出了一种新的跨模态泛化(CMG)任务,旨在解决预训练阶段从配对的多模态数据中学习统一离散表示的挑战。
动机:现有的多模态表示学习方法主要关注粗粒度对齐或依赖于不同模态的信息完全对齐的假设,这在现实世界的场景中是不现实的。
方法:为了克服这个限制,我们提出了Uni-Code,包括双向跨模态信息解耦(DCID)模块和多模态指数移动平均(MM-EMA)两个关键贡献。这些方法促进了模态之间的双向监督,并在共享的离散潜在空间中对齐语义等价的信息,实现了多模态序列的细粒度统一表示。
效果:在预训练阶段,我们研究了各种模态组合,包括视听、音视和视听文本的三模态组合。在各种下游任务上的大量实验,如跨模态事件分类、定位、检索、基于查询的视频分割和跨数据集事件定位,证明了我们提出的方法的有效性。代码可在https://github.com/haihuangcode/CMG获取。
Text Promptable Surgical Instrument Segmentation with Vision-Language Models
Zijian Zhou Oluwatosin Alabi Meng Wei Tom Vercauteren Miaojing Shi
研究问题:本文旨在解决微创手术中手术器械多样性和差异化的挑战,特别是在手术器械分割问题上。
动机:由于微创手术中手术器械的多样性和差异化,传统的手术器械分割方法面临挑战。受视觉语言模型最新进展的启发,作者提出了一种新颖的文本提示手术器械分割方法。
方法:该方法以预训练的图像和文本编码器作为模型基础,设计了一个由注意力和卷积为基础的提示机制组成的文本提示掩码解码器进行手术器械分割预测。通过一种新的提示混合机制,模型利用多个文本提示对每个手术器械进行提示,从而提高分割性能。此外,还引入了硬器械区域强化模块以提高图像特征理解和分割精度。
效果:在几个手术器械分割数据集上的大量实验表明,该模型具有优越的性能和良好的泛化能力。据作者所知,这是首次将提示方法应用于手术器械分割,为机器人辅助手术领域提供了巨大的实际应用潜力。
Towards A Richer 2D Understanding of Hands at Scale
Tianyi Cheng Dandan Shan Ayda Sultan Hassen Richard Ely Locke Higgins David Fouhey
研究问题:如何让AI系统更好地理解手部交互?
动机:通过观察他人的手部交互,人类可以学习到很多关于如何与世界互动的知识。为了帮助AI系统获得对手部交互的更深入理解,我们引入了一种新的模型。
方法:我们的系统产生的结果比过去的系统在更大的规模上更为丰富。我们的输出包括手部的框和段,接触物体,以及工具接触和抓取的第二物体。这种方法的支持来自于四个数据集的257K张图像、401K只手、288K个物体和19K个第二物体的注释。
效果:我们的结果显示,该方法提供了丰富的信息,并且具有良好的性能和泛化能力。
InfoCD: A Contrastive Chamfer Distance Loss for Point Cloud Completion
Fangzhou Lin Yun Yue Ziming Zhang Songlin Hou Kazunori Yamada Vijaya B Kolachalama Venkatesh Saligrama
研究问题:如何有效地衡量和学习三维点云之间的相似性,同时解决现有方法对异常值敏感的问题。
动机:现有的Chamfer距离(CD)度量和训练损失在衡量点云间的距离上非常流行,但它们对异常值敏感。
方法:本文提出了一种新颖的对比性Chamfer距离损失函数InfoCD,通过学习匹配点的扩散以实现点云之间更好的分布对齐,并考虑表面相似度估计器。
效果:实验结果表明,使用InfoCD进行点云补全,在所有流行的基于CD损失的基线上都有显著的改进,并在几个基准数据集上取得了新的最先进的结果。
Jigsaw: Learning to Assemble Multiple Fractured Objects
Jiaxin Lu Yifan Sun Qixing Huang
研究问题:本文旨在开发一种新的框架,用于从多个碎片中组装物理上破碎的3D物体。
动机:自动化装配3D断裂在骨科、考古学和我们的日常生活中至关重要。
方法:该文提出一种名为Jigsaw的新框架,利用全局和局部几何的分层特征来匹配和对齐断裂表面。该框架由四个组件组成:(1)具有注意力层的前端点特征提取器;(2)分割断裂和原始部分的表面;(3)在断裂表面点之间找到对应关系;(4)恢复碎片的全局姿势的稳健全局对齐。
效果:在Breaking Bad数据集上评估Jigsaw,其性能优于最先进的方法。该方法也很好地适用于各种断裂模式、对象和未见过的情况。这是专为多片3D断裂装配设计的第一个基于学习的方法。
PrObeD: Proactive Object Detection Wrapper
Vishal Asnani Abhinav Kumar Suya You Xiaoming Liu
研究问题:现有的二维物体检测方法在处理通用和伪装图像时,由于神经网络的全局极小值并非最优,导致训练后的物体检测器性能不佳。
动机:为了解决这个问题,本文提出了一种基于主动方案的包装器PrObeD,通过学习信号来提高物体检测器的性能。
方法:PrObeD由编码器-解码器架构组成,编码器网络生成一个与输入图像相关的信号(模板)对输入图像进行加密,解码器从加密的图像中恢复这个模板。通过学习最优模板,可以得到具有改进检测性能的物体检测器。
效果:在MS-COCO、CAMO、COD10K和NC4K数据集上的实验表明,应用PrObeD后,不同的检测器都有所改进。
A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence
Junyi Zhang Charles Herrmann Junhwa Hur Luisa Polania Cabrera Varun Jampani Deqing Sun Ming-Hsuan Yang
研究问题:扩散模型特征在理解处理单个图像和对象上的表现如何?
动机:探索扩散模型特征在多个不同图像和对象上的应用。
方法:利用稳定扩散(SD)特征进行语义和密集对应,并通过简单的后处理,发现SD特征可以与最新的表征学习特征相媲美。
效果:通过融合这两种特征,性能显著优于现有方法,并在基准数据集上实现了重要的性能提升。
Locality-Aware Generalizable Implicit Neural Representation
Doyup Lee Chiheon Kim Minsu Cho Wook-Shin Han
研究问题:如何提高预训练语言模型对结构化知识的利用,以增强语言表示。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Task-aware Distributed Source Coding under Dynamic Bandwidth
Po-han Li Sravan Kumar Ankireddy Ruihan Zhao Hossein Nourkhiz Mahjoub Ehsan Moradi Pari ufuk topcu Sandeep P. Chinchali Hyeji Kim
研究问题:如何在多传感器网络中有效地压缩相关数据以最小化通信负载。
动机:在多传感器网络中,每个传感器独立地压缩数据并将其传输到中央节点。由于有限的通信带宽,压缩器需要只学习与任务相关的特征。此外,最终的性能在很大程度上取决于总可用带宽。在实践中,经常会遇到带宽可用性的变化。因此,压缩器必须动态地利用任何时刻的最大可用带宽。
方法:我们提出了一种新的分布式压缩框架,由独立的编码器和联合解码器组成,我们称之为神经分布式主成分分析(NDPCA)。NDPCA通过学习低秩任务表示和有效地在传感器之间分配带宽,灵活地将来自多个源的数据压缩到任何可用的带宽,从而减少了计算和存储开销。
效果:实验表明,与具有均匀带宽分配的自动编码器相比,NDPCA在提高多视角机器人手臂操作的成功率方面提高了9%,在卫星图像物体检测任务的准确性方面提高了14%。
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis
Susan Liang Chao Huang Yapeng Tian Anurag Kumar Chenliang Xu
研究问题:机器能否在新颖的位置和视角下,对音频-视觉场景进行真实、匹配的音频-视觉体验记录?
动机:通过研究一种新的任务——真实世界的音频-视觉场景合成,以及一种首创的基于NeRF的多模态学习方法,来回答这个问题。
方法:我们提出了一个声音感知的音频生成模块,将音频传播的先验知识整合到NeRF中,使音频生成与视觉环境的3D几何和材料属性隐含关联。我们还展示了一个坐标转换模块,用于表示相对于声源的视角,使模型能够学习以声源为中心的声场。
效果:我们在高质量的真实世界音频-视觉场景(RWAVS)数据集上展示了该方法的优势,并在基于模拟的声音空间(SoundSpaces)数据集上也取得了显著的效果。
CP-SLAM: Collaborative Neural Point-based SLAM System
Jiarui Hu Mao Mao Hujun Bao Guofeng Zhang Zhaopeng Cui
研究问题:本文旨在提出一种协同的隐式神经网络同时定位与地图构建(SLAM)系统,以处理RGB-D图像序列。
动机:为了在统一的框架中实现所有这些模块,提出了一种新的基于点的3D场景表示方法,并设计了分布式到集中的学习策略以提高系统的一致性和协作性。
方法:提出的系统包括完整的前端和后端模块,如里程计、环路检测、子地图融合和全局优化。其中,每个点都维护一个用于场景编码的可学习神经特征,并与某一关键帧关联。
效果:实验证明,该方法在相机跟踪和地图构建等任务上均优于传统方法。
CAST: Cross-Attention in Space and Time for Video Action Recognition
Dongho Lee Jongseo Lee Jinwoo Choi
研究问题:如何通过空间和时间理解,在视频中识别人类行为。
动机:现有的动作识别模型在对视频的空间和时间理解上存在不平衡的问题。
方法:提出了一种名为Cross-Attention in Space and Time(CAST)的新颖双流架构,仅使用RGB输入即可实现对视频的平衡空间和时间理解。
效果:通过在具有不同特征的公共基准测试集EPIC-Kitchens-100、Something-Something-V2和Kinetics-400上的广泛实验,证明了该方法的优越性能。
Improving Graph Matching with Positional Reconstruction Encoder-Decoder Network
Yixiao Zhou Ruiqi Jia Hongxiang Lin Hefeng Quan Yumeng Zhao Xiaoqing Lyu
研究问题:本文旨在解决现有深度图匹配方法在捕捉语义关键点的空间关系方面的不足。
动机:现有的深度图匹配方法在从语义关键点的位置构建图的过程中,无法充分捕获关键点之间的相对空间关系。
方法:提出了一种位置重建编码器-解码器(PR-EnDec),用于建模图的内在空间结构,并基于PR-EnDec提出了一个端到端的图匹配网络PREGM。
效果:在三个公开的关键点匹配数据集上的大量实验结果表明,所提出的PREGM方法的有效性。
Query-based Temporal Fusion with Explicit Motion for 3D Object Detection
Jinghua Hou Zhe Liu dingkang liang Zhikang Zou Xiaoqing Ye Xiang Bai
研究问题:如何有效地利用时间信息来提高自动驾驶车辆的3D检测性能。
动机:现有的方法要么基于密集BEV特征进行时间融合,要么基于稀疏3D提案特征进行时间融合,但前者对前景物体的关注不够,导致计算成本较高且性能不佳;后者需要执行耗时的操作来生成稀疏的3D提案特征,其性能受到3D提案质量的限制。
方法:本文提出了一种简单而有效的基于查询的时间融合网络(QTNet)。主要思想是利用前几帧中的物体查询来增强当前物体查询的表示,这是通过提出的运动引导的时间建模(MTM)模块实现的,该模块利用物体查询在时间维度上的空间位置信息来可靠地构建相邻帧之间的相关性。
效果:实验结果表明,我们提出的QTNet在nuScenes数据集上优于基于BEV或提案的方式。此外,MTM是一个即插即用的模块,可以集成到一些先进的纯LiDAR或多模态3D检测器中,甚至在nuScenes数据集上以可忽略的计算成本和延迟带来新的SOTA性能。这些实验有力地证明了我们的方法的优越性和普遍性。代码可在https://github.com/AlmoonYsl/QTNet获取。
SLIBO-Net: Floorplan Reconstruction via Slicing Box Representation with Local Geometry Regularization
Jheng-Wei Su Kuei-Yu Tung Chi-Han Peng Peter Wonka Hung-Kuo Chu
研究问题:本文旨在改进从无结构的3D点云重建2D平面图的方法。
动机:当前方法在语义质量、有效表示和局部几何细节等方面存在不足,需要改进。
方法:提出SLIBO-Net,一种创新的从无结构3D点云重建2D平面图的方法。该方法采用基于变压器的新型架构,提供改进的房间形状监督和可管理的令牌数量。通过将几何先验作为正则化机制和后处理步骤,增强了对局部几何细节的捕捉。
效果:该方法在Structure3D数据集上取得了新的最先进的成果。重建的平面图显示出增强的语义可信度,显著提高了重建的整体质量和逼真度。代码和数据集在线可用。
Connecting Multi-modal Contrastive Representations
Zehan Wang Yang Zhao Xize Cheng Haifeng Huang Jiageng Liu Aoxiong Yin Li Tang Linjun Li Yongqi Wang Ziang Zhang Zhou Zhao
研究问题:本文旨在解决多模态对比表示学习(MCR)需要大量高质量数据对的问题,提出一种新的无需配对数据的学习方法。
动机:目前的MCR方法依赖于大量的高质量数据对,限制了其在更多模态上的发展。
方法:本文提出了一种名为“连接多模态对比表示”(C-MCR)的新方法。具体来说,对于在$(\mathcal{A}$, $\mathcal{B})$和$(\mathcal{B}$, $\mathcal{C})$模态对上预训练的两个现有的MCR,我们将它们投影到一个新的空间中,并使用来自重叠模态$mathcal{B}$的数据在新的空间中对两个MCR进行对齐。同时,由于模态对$(mathcal{A}$, $mathcal{B})$和$(\mathcal{B}$, $\mathcal{C})$在每个MCR中已经对齐,通过重叠模态学习的连接也可以转移到非重叠模态对$(\mathcal{A}$, $mathcal{C})$。
效果:实验结果表明,C-MCR在音频-视觉领域无需使用任何配对数据就能达到最先进的性能,并在音频-图像检索、音频-视觉源定位和反事实音频-图像识别任务上表现出色。此外,C-MCR在3D语言学习方面也实现了先进的零射弹3D点云分类精度。
SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic Understanding
Paul-Edouard Sarlin Eduard Trulls Marc Pollefeys Jan Hosang Simon Lynen
研究问题:我们能否使用原始图像来自动创建易于人类和机器理解的更好地图?
动机:现有的语义2D地图在细节、准确性以及自动化创建和维护方面存在限制。
方法:我们引入了SNAP,这是一个可以从地面和空中图像中学习丰富2D神经地图的深度网络。我们的模型通过数十亿个街景图像上的相机姿态进行监督训练,以对齐从不同输入估计的神经地图。
效果:SNAP能够解决传统方法无法处理的具有挑战性的图像查询的位置问题,并在本地化任务上大幅超越现有技术。此外,我们的神经地图不仅编码了几何和外观信息,还发现了无需显式监督的高度级语义信息,这为数据高效的语义场景理解的有效预训练提供了可能,有望实现更详细地图的低成本创建。
SwiFT: Swin 4D fMRI Transformer
Peter Yongho Kim Junbeom Kwon Sunghwan Joo Sangyoon Bae Donggyu Lee Yoonho Jung Shinjae Yoo Jiook Cha Taesup Moon
研究问题:如何从高维数据如功能磁共振成像(fMRI)中直接学习大脑动态?
动机:现有的fMRI分析方法使用手工制作的特征,但特征提取过程可能会丢失fMRI扫描中的关键信息。
方法:提出SwiFT模型,一种可以直接从fMRI体积中以记忆和计算高效的方式学习大脑动态的Swin Transformer架构。通过实施4D窗口多头自注意力机制和绝对位置嵌入来实现。
效果:在多个大规模的静息状态fMRI数据集上进行评估,包括人类连接组项目(HCP)、青少年大脑认知发展(ABCD)和英国生物银行(UKB)数据集,预测性别、年龄和认知智力。实验结果表明,SwiFT始终优于最新的先进模型。此外,利用其端到端学习能力,展示了基于对比损失的自我监督预训练可以增强下游任务的性能。
Self-Adaptive Motion Tracking against On-body Displacement of Flexible Sensors
Chengxu Zuo Jiawei Fang Shihui Guo Yipeng Qin
研究问题:如何应对传感器在人体上的位移问题,以实现对人的状态的普遍感知。
动机:由于传感器的灵活性和易于集成为可穿戴系统,它们有希望用于普遍感知人体状态。然而,由于设备不能在不同的会话中固定在一个位置,传感器在身体上的位移是不可避免的。这个问题给后续的机器学习算法带来了复杂的模式和重大的挑战。
方法:我们提出了一种新的自适应运动跟踪网络来解决这个挑战。我们的网络由三个新的组件组成:(1)一个轻量级的可学习的仿射变换层,其参数可以调整以有效地适应未知的位移;(2)一个傅立叶编码的长短期记忆网络,用于更好地识别模式;(3)一个新的序列差异损失,配备辅助回归器,用于无监督调整仿射变换参数。
效果:实验结果表明,我们的方法能够有效地处理传感器在人体上的位移问题,提高了对人的状态的普遍感知的准确性。
Towards Consistent Video Editing with Text-to-Image Diffusion Models
Zicheng Zhang Bonan Li Xuecheng Nie Congying Han Tiande Guo Luoqi Liu
研究问题:现有的文本到图像扩散模型在视频编辑中存在一致性和时序性问题。
动机:这些问题是由于在学习时序信息时,新加入的模块导致特征空间的协变量偏移,从而影响了编辑能力。
方法:提出了一种新的EI^2模型,通过引入Shift-restricted Temporal Attention Module (STAM)和Fine-coarse Frame Attention Module (FFAM)来解决上述问题。STAM使用实例中心化层替换了Layer Normalization来保留时序特征的分布,同时使用注意力层进行标准化映射以转换时序特征并限制方差偏移。FFAM则利用全局帧的精细-粗略空间信息进一步增加时序一致性。
效果:实验表明,提出的EI^2模型具有优越的性能。
Opening the Vocabulary of Egocentric Actions
Dibyadip Chatterjee Fadime Sener Shugao Ma Angela Yao
研究问题:本文旨在解决自主视频中的动作识别问题,特别是在开放词汇环境下对新对象进行动作识别的问题。
动机:尽管现有的自主视频数据集已经相当大,但仍存在两个主要问题:动作组合的稀疏性和交互对象的封闭性。
方法:本文提出了一种新的开放词汇动作识别任务。通过一个与对象无关的动词编码器和一个基于提示的对象编码器,将动词和对象预测解耦。提示利用CLIP表示来预测开放词汇的交互对象。
效果:在EPIC-KITCHENS-100和Assembly101数据集上创建了开放词汇基准测试。与封闭式动作方法无法泛化不同,该方法非常有效。此外,我们的对象编码器在识别新交互对象方面显著优于现有的开放词汇视觉识别方法。
Point Cloud Completion with Pretrained Text-to-Image Diffusion Models
Yoni Kasten Ohad Rahamim Gal Chechik
研究问题:如何有效地补全现实世界中收集到的不完整点云数据。
动机:现有的补全方法依赖于特定预定义对象的数据集来指导不完整和可能噪声的点云的完成,但这些方法在分布外(OOD)对象上表现不佳。
方法:我们提出了一种名为SDS-Complete的方法,该方法使用预训练的文本到图像扩散模型,并利用给定对象的不完整点云的文本语义,获得完整的表面表示。
效果:我们在现实世界的深度传感器和激光扫描仪捕获的不完整扫描对象上评估了SDS-Complete,并证明其在处理通常不存在于常见数据集中的物体方面是有效的。
Language-driven Scene Synthesis using Multi-conditional Diffusion Model
An Dinh Vuong Minh Nhat VU Toan Tien Nguyen Baoru Huang Dzung Nguyen Thieu Vo Anh Nguyen
研究问题:本文旨在解决场景合成问题,特别是如何结合文本提示、人体运动和现有物体进行多模态场景合成。
动机:尽管已有一些研究尝试通过人类运动、房间布局或空间图等方式进行场景合成,但将文本提示纳入考虑的场景合成任务却鲜有研究。
方法:本文提出了一种语言驱动的场景合成任务,该任务整合了文本提示、人体运动和现有物体进行场景合成。为了处理多个条件并将它们编码到一个统一空间中,我们提出了一种多条件扩散模型,该模型通过显式预测原始数据分布的引导点,与其它扩散文献中的隐式统一方法有所不同。
效果:理论分析和大量实验结果表明,我们的方法优于最先进的基准测试,并能够实现自然的场景编辑应用。
SceneScape: Text-Driven Consistent Scene Generation
Rafail Fridman Amit Abecasis Yoni Kasten Tali Dekel
研究问题:如何仅根据输入的文本提示和相机位姿,生成各种场景的长期视频。
动机:目前的模型只能生成有限领域的视频,缺乏对各种场景的广泛适用性。
方法:提出一种新颖的框架,通过结合预训练的文本到图像模型的生成能力和预训练的单眼深度预测模型学习的几何先验知识,在线生成此类视频。为了解决实现3D一致性的关键挑战,即合成描绘几何上可信的场景的视频,我们部署了在线测试时间训练,鼓励当前帧的预测深度图与合成场景在几何上保持一致。
效果:实验结果表明,该方法可以生成多样化的场景,如太空船、洞穴或冰城堡中的走廊视图,并在各种知识驱动任务上取得了显著改进。
Inner-Outer Aware Reconstruction Model for Monocular 3D Scene Reconstruction
Yu-Kun Qiu Guohao Xu Wei-Shi Zheng
研究问题:单目三维场景重建旨在基于已定位的图像重建场景的三维结构。
动机:现有的基于体积的方法直接预测截断符号距离函数(TSDF)体积,取得了有希望的结果。但是,非表面体素具有各种特征,特别是表面内侧的体素与外侧的体素非常不同,因为它们之间存在固有间隙。因此,将内部表面和外部表面体素分组到同一类别会迫使分类器花费其容量来弥合差距。相比之下,由于存在固有间隙,分类器相对容易区分内部表面和外部表面体素。
方法:受此启发,我们提出了内部-外部感知重建(IOAR)模型。 IOAR探索了一种新的粗到细策略来分类外部表面、内部表面和表面体素。此外,IOAR将占用分支与TSDF分支分开以避免它们之间的相互干扰。由于我们的模型可以更好地分类表面、外部表面和内部表面体素,因此它可以比现有方法预测更精确的网格。
效果:在ScanNet、ICL-NUIM和TUM-RGBD数据集上的实验结果表明了我们模型的有效性和泛化能力。代码可在https://github.com/YorkQiu/InnerOuterAwareReconstruction获取。
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval
Hao Li Jingkuan Song Lianli Gao Xiaosu Zhu Heng Tao Shen
研究问题:本文旨在解决跨模态检索中由于低质量数据引发的随机不确定性,导致预测结果不可靠的问题。
动机:现有的跨模态检索方法在处理低质量数据时,如损坏的图像、快速的视频和非详细的文本,其预测结果往往不可靠。
方法:本文提出了一种新的原型基于随机不确定性量化(PAU)框架,通过构建各种可学习的原型来代表整个语义子空间,并利用Dempster-Shafer理论和主观逻辑理论建立证据与Dirichlet分布参数关联的证据理论框架,以提供准确的不确定性和可靠的跨模态检索预测。
效果:在MSR-VTT、MSVD、DiDeMo和MS-COCO四个主要基准数据集上进行的大量实验表明,该方法有效提高了预测的准确性和可靠性。
Orthogonal Non-negative Tensor Factorization based Multi-view Clustering
Jing Li Quanxue Gao QIANQIAN WANG Ming Yang Wei Xia
研究问题:现有的基于非负矩阵分解的多视角聚类方法在每个视角上分别进行非负矩阵分解,忽视了视角间的影响,无法充分利用视图内的空间结构和视图间的互补信息。
动机:为了解决这个问题,我们提出了正交非负张量分解(Orth-NTF)并开发了一种基于Orth-NTF和单侧正交约束的新型多视角聚类方法。
方法:我们的模型直接对由视图的锚图组成的三阶张量执行Orth-NTF,从而直接考虑了视角间的关系。此外,我们使用张量Schatten p-范数正则化作为描述多视角数据集群结构的三阶张量的秩近似,并利用视图间的互补信息。
效果:我们在各种基准数据集上进行了广泛的实验,结果表明我们提出的方法能够达到满意的聚类性能。
3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection
Yunhao Ge Hong-Xing Yu Cheng Zhao Yuliang Guo Xinyu Huang Liu Ren Laurent Itti Jiajun Wu
研究问题:单目3D物体检测中,真实数据集中的物体多样性和数量有限。
动机:虽然通过在真实场景中插入虚拟物体可以提高物体的多样性和数量,但由于缺乏在复杂真实捕获场景中的有效3D物体插入方法,这一目标仍然难以实现。
方法:我们提出了一种在复杂真实室内场景中插入物理上可信的虚拟物体的方法,用于增强单目3D物体检测。主要挑战是在杂乱的真实场景中自动识别虚拟资产(如位置、外观、大小等)的合理物理属性。
效果:我们的实验表明,这种增强方法显著提高了现有的单目3D物体模型的性能,并达到了最先进的性能水平。这是首次证明,作为生成性数据增强技术,物理上可信的3D物体插入可以显著提高鉴别性下游任务(如单目3D物体检测)的性能。
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation
Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang
研究问题:本文旨在解决视频对象分割(RVOS)任务中,由于缺乏全局视频内容视图,导致无法有效利用帧间关系和理解物体时间变化文本描述的问题。
动机:目前的RVOS方法将任务模型化为序列预测问题,并对每一帧分别进行多模态交互和分割,但这种方法忽视了全局的视频内容视图,导致在处理物体的时间变化文本描述时存在困难。
方法:本文提出了一种名为“语义辅助对象聚类”(SOC)的方法,该方法通过聚合视频内容和文本指导来进行统一的时序建模和跨模态对齐。通过将一组帧级别的对象嵌入与语言标记关联起来,SOC促进了跨模态和时间步长的联合空间学习。此外,还提出了多模态对比监督来帮助构建良好的对齐的联合空间。
效果:在流行的RVOS基准上进行了广泛的实验,该方法在所有基准上都优于最先进的竞争对手,且显著提高了分割的稳定性和适应性。
NeuroGF: A Neural Representation for Fast Geodesic Distance and Path Queries
Qijian Zhang Junhui Hou Yohanes Yudhi Adikusuma Wenping Wang Ying He
研究问题:传统的计算三维网格模型上测地线的算法效率低下,不适合需要大量查询任意点对点测地线的场景。
动机:尽管深度学习隐式函数在3D几何表示中受到欢迎,但尚未有关于神经隐式测地线表示的研究。
方法:我们首次尝试使用隐式学习框架来表示测地线,提出了神经测地场(NeuroGF),可以学习编码给定三维网格模型的所有点对测地线。
效果:我们在常见的3D对象模型和真实捕获的场景级网格上进行评估,结果显示我们在表示准确性和查询效率方面具有出色的性能。此外,NeuroGF还提供了一种方便的方式,可以在统一的表示中联合编码3D几何和测地线。
NeRF Revisited: Fixing Quadrature Instability in Volume Rendering
Mikaela Angelina Uy Kiyohiro Nakayama Guandao Yang Rahul Krishna Thomas Leonidas Guibas Ke Li
研究问题:神经辐射场(NeRF)在合成新视图时依赖于体积渲染,但此过程存在数值近似导致的积分不稳定性问题。
动机:解决现有神经辐射场方法中存在的采样不一致、层次采样不精确以及射线终止距离分位数的模型参数不可微等问题。
方法:通过将基于样本的渲染方程重新公式化,使其对应于分段线性体积密度下的精确积分,从而同时解决了多个问题。
效果:该方法在纹理清晰度、几何重建和深度监督等方面都优于传统的基于样本的渲染方程,可以作为现有基于NeRF的方法中的替代方案。
Dynamo-Depth: Fixing Unsupervised Depth Estimation for Dynamical Scenes
Yihong Sun Bharath Hariharan
研究问题:目前的单目深度估计技术在动态场景中表现不佳,因为物体的运动可能既可以通过假设物体的独立运动来解释,也可以通过改变其深度来解释。
动机:为了解决这一问题,我们提出了Dynamo-Depth方法,通过联合学习单目深度、3D独立流场和运动分割来消除动态运动的歧义。
方法:我们的关键见解是,尽管存在根本的基本歧义,但良好的运动分割初始估计足以联合学习深度和独立运动。
效果:我们的方法在Waymo Open和nuScenes数据集上的单目深度估计方面取得了最先进的性能,显著提高了移动物体的深度。
E2PNet: Event to Point Cloud Registration with Spatio-Temporal Representation Learning
Xiuhong Lin Changjie Qiu zhipeng cai Siqi Shen Yu Zang Weiquan Liu Xuesheng Bian Matthias Müller Cheng Wang
研究问题:本文旨在解决近年来由于其无与伦比的时间分辨率和动态范围而成为有前景的视觉传感器的事件相机中的2D-3D注册问题。
动机:尽管在计算机视觉中,将2D RGB图像注册到3D点云是一个长期存在的问题,但之前的研究并未对事件相机进行过此类研究。为此,我们提出了E2PNet,这是第一个基于学习的方法来进行事件到点云的注册。
方法:E2PNet的核心是一种名为Event-Points-to-Tensor (EP2T)的新型特征表示网络,它将事件数据编码为一个二维网格状的特征张量。这种网格状的特征使得成熟的基于RGB的框架能够轻松地用于事件到点云的注册,无需更改超参数和训练过程。EP2T将事件输入视为时空点云。与将所有维度等同对待的标准3D学习架构不同,EP2T中新颖的采样和信息聚合模块被设计用来处理空间和时间维度的非均匀性。
效果:我们在MVSEC和VECtor数据集上的实验表明,E2PNet优于手工制作和其他基于学习的方法。与基于RGB的注册相比,由于使用了事件数据,E2PNet对于极端光照或快速运动更具鲁棒性。除了2D-3D注册外,我们还展示了EP2T在其他视觉任务(如流估计、事件到图像重建和对象识别)中的潜力。
GPT-ST: Generative Pre-Training of Spatio-Temporal Graph Neural Networks
Zhonghang Li Lianghao Xia Yong Xu Chao Huang
研究问题:近年来,随着交通管理和旅行规划需求的增加,时空预测技术得到了快速发展。尽管先进的端到端模型在提高预测性能方面取得了显著成功,但其集成和扩展带来了重大挑战。
动机:本文旨在通过引入一个无缝集成并提升下游基线性能的时空预训练框架来解决这些挑战。
方法:该框架建立在两个关键设计上:(i)我们提出了一个时空掩码自动编码器作为学习时空依赖性的预训练模型。该模型包含了定制的参数学习器和分层的空间模式编码网络,专门用于捕捉常被现有方法忽视的时空定制表示和集群内及集群间的区域语义关系。(ii)我们引入了一种自适应掩码策略作为预训练机制的一部分。这种策略引导掩码自动编码器学习稳健的时空表示,并以易到难的方式促进不同关系的建模,范围从集群内到集群间。
效果:我们在代表性基准上进行了广泛的实验,证明了我们提出的方法的有效性。我们的模型实现已在 https://github.com/HKUDS/GPT-ST 上公开发布。
Look Ma, No Hands! Agent-Environment Factorization of Egocentric Videos
Matthew Chang Aditya Prakash Saurabh Gupta
研究问题:如何有效地利用自我中心视频进行机器人任务,并解决遮挡和人的手与机器人末端执行器之间的视觉不匹配问题。
动机:过去的工作将人手视为干扰并从场景中移除,但人手也提供了学习的重要信号。
方法:提出一种提取场景因子表示的方法,将代理(人手)和环境分离,以缓解遮挡和不匹配问题,同时保留信号,从而简化了下游机器人任务的模型设计。该方法的核心是我们的视频修复模型VIDM,该模型利用现实世界图像的先验知识(通过大规模预训练的扩散模型)和对象在视频早期帧中的外观(通过注意力)。
效果:实验证明VIDM能有效提高自我中心视频的修复质量,以及我们的因子表示对众多任务的有效性:物体检测、操作对象的3D重建,以及从视频中学习奖励函数、策略和功能。
Structure from Duplicates: Neural Inverse Graphics from a Pile of Objects
Tianhang Cheng Wei-Chiu Ma Kaiyu Guan Antonio Torralba Shenlong Wang
研究问题:如何从单一图像中重建物体的几何形状、材质和光照。
动机:现实世界中存在大量相同的物体,当它们在一起时,可以为我们提供有效的3D推理线索。
方法:提出一种新的逆向图形框架——Structure from Duplicates(SfD),通过识别图像中的多个相同物体实例,联合估计所有实例的6自由度姿态,然后采用逆向图形管道共同推理物体的形状、材质和环境光,同时遵守所有实例之间的共享几何和材质约束。
效果:利用物体副本作为单图像逆向图形的鲁棒先验,并提出了平面内旋转稳健的结构运动(SfM)公式进行联合6自由度物体姿态估计。通过利用单一图像的多视图线索,SfD生成了更真实、更详细的3D重建,显著优于现有的单图像重建模型和多视图重建方法。
Deep Non-line-of-sight Imaging from Under-scanning Measurements
Yue Li Yueyi Zhang Juntian Ye Feihu Xu Zhiwei Xiong
研究问题:如何从稀疏的测量中重建满意的结果。
动机:现有的传统算法在重建结果上表现不佳或计算时间长,因此需要一种更有效的方法。
方法:提出了一种基于深度学习的非视线成像方法,该方法由两个主要组件组成:瞬态恢复网络(TRN)和体积重建网络(VRN)。
效果:该方法在合成数据和公共真实世界数据上都表现出优越的性能,并在极低的扫描网格(即8×8)下显示出令人印象深刻的鲁棒性,同时提供了高速推理(比现有的迭代解决方案快50倍)。
HASSOD: Hierarchical Adaptive Self-Supervised Object Detection
Shengcao Cao Dhiraj Joshi Liangyan Gui Yu-Xiong Wang
研究问题:如何实现无需人类监督的物体检测和理解物体组成。
动机:借鉴人类视觉系统的无监督学习和理解物体整体结构的能力,提出一种新的方法。
方法:提出了一种分层自适应自我监督物体检测(HASSOD)方法,通过分层自适应聚类策略将区域分组为基于自我监督视觉表示的对象掩码,并自适应确定每张图像中的对象数量。同时,通过分析掩码之间的覆盖关系并构建树形结构来识别对象的层次结构。
效果:在广泛使用的图像数据集上进行的大量实验表明,HASSOD优于现有方法,从而推动了自我监督物体检测领域的进展。在LVIS和SA-1B上,HASSOD将Mask AR从20.2提高到22.5,从17.0提高到26.0。
CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders
Anthony Fuller Koreen Millard James R Green
研究问题:如何利用大量稀疏标记的多模态遥感数据进行有效的自监督学习。
动机:遥感数据具有广阔的空间和丰富的模式,但标记信息稀疏,因此需要一种能够有效利用这些数据的自监督学习方法。
方法:提出CROMA框架,结合对比学习和重建学习的目标,分别对掩蔽的多光谱光学和合成孔径雷达样本进行编码并进行跨模态对比学习,然后通过一个轻量级解码器预测被掩蔽的图像块。
效果:实验表明,CROMA在各种遥感任务上的表现优于当前最先进的模型,包括分类和分割等任务,并且其表示可以广泛应用于遥感应用。
DELIFFAS: Deformable Light Fields for Fast Avatar Synthesis
YoungJoong Kwon Lingjie Liu Henry Fuchs Marc Habermann Christian Theobalt
研究问题:如何生成可控且逼真的数字人类头像。
动机:虽然现有的方法在逼真度或推理速度上取得了显著进步,但同时具备这两种特性的问题仍未解决。
方法:提出一种名为DELIFFAS的新方法,将人类的外观参数化为附着在可控变形人体网格模型上的表面光场。
效果:通过精心设计的人体表示和监督策略,实现了最先进的合成结果和推理时间,相关视频结果和代码可在指定网站获取。
Video Dynamics Prior: An Internal Learning Approach for Robust Video Enhancements
Gaurav Shrivastava Ser-Nam Lim Abhinav Shrivastava
研究问题:本文旨在提出一种新颖的鲁棒框架,用于处理低级别的视觉任务,如去噪、对象移除、帧插值和超分辨率,而无需任何外部训练数据集。
动机:目前的方法需要依赖大量的外部训练数据,而本文提出的新方法通过优化受污染的测试序列来直接学习神经网络模块的权重,利用视频的空间-时间连贯性和内部统计信息。
方法:我们引入了一种新的空间金字塔损失函数,利用视频中不同尺度的空间-时间补丁重复性的特性。这种损失函数增强了对输入帧中无序噪声的鲁棒性,并进一步提高了我们的框架对输入帧退化的鲁棒性。
效果:我们在DAVIS、UCF-101和VIMEO90K-T等标准视频数据集上进行了定性和定量评估,实验结果表明,我们的方法在去噪、对象移除和帧插值等下游任务上取得了最先进的结果。
Coupled Reconstruction of Cortical Surfaces by Diffeomorphic Mesh Deformation
Hao Zheng Hongming Li Yong Fan
研究问题:如何准确重建大脑磁共振成像中的皮质表面。
动机:由于大脑MRI中的部分体积效应和大脑皮层的薄而高度折叠的模式,从大脑MRI准确重建皮质表面仍然是一个挑战。
方法:开发了一种新的深度学习框架,联合重建内部(白质)和外部(软脑膜)皮质表面以及它们之间的中间(中厚)表面,并直接从3D MRIs估计皮质厚度。
效果:在包括ADNI和OASIS在内的两个大规模神经影像数据集上进行评估,该方法在准确性、表面规则性和计算效率方面实现了最先进的皮质表面重建性能。
NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos
Jinxi Li Ziyang Song Bo Yang
研究问题:本文旨在从多视角视频中建立3D场景动态模型。
动机:与大部分现有工作关注训练期间的常见任务——新视图合成不同,我们提出仅从视频帧同时学习3D场景的几何、外观和物理速度,以支持包括未来帧预测、无监督3D语义场景分解和动态运动转移在内的多个期望应用。
方法:我们的方法由三个主要组件组成:1)关键帧动态辐射场;2)帧间速度场;3)联合关键帧和帧间优化模块,这是我们框架的核心,可以有效训练两个网络。
效果:为了验证我们的方法,我们引入了两个动态3D数据集:1)动态对象数据集;2)动态室内场景数据集。我们在多个数据集上进行了广泛的实验,证明我们的方法在所有基线上都表现出优越的性能,特别是在未来帧预测和无监督3D语义场景分解的关键任务上。
Tame a Wild Camera: In-the-Wild Monocular Camera Calibration
Shengjie Zhu Abhinav Kumar Masa Hu Xiaoming Liu
研究问题:单目自然图像的3D传感,如深度估计和3D物体检测,变得越来越重要。然而,未知的内在参数阻碍了其发展和部署。
动机:先前的方法依赖于特定的3D对象或强烈的几何先验,如使用棋盘格或强加曼哈顿世界假设进行单目相机标定。这项工作通过利用单目3D先验来校准内在参数。
方法:给定一个未失真的图像作为输入,我们的方法校准完整的4自由度(DoF)内在参数。首先,我们表明内在参数由两个经过充分研究的单目先验决定:单目深度图和表面法线图。然而,这种方法需要低偏差和低方差的深度估计。或者,我们引入入射场,定义为3D空间中的点和2D成像平面上的像素之间的入射射线。
效果:我们展示了1) 入射场是图像裁剪和调整大小不变的像素级内在参数化;2) 入射场是一个可学习的单目3D先验,由单目深度图和表面法线确定像素级;3) 使用估计的入射场,鲁棒的RANSAC算法恢复内在参数。我们在合成和零样本测试数据集上展示了该方法的有效性。除了校准外,我们还在图像操纵检测和恢复、未校准的两视图姿态估计和3D传感等下游应用中展示了效果。
Described Object Detection: Liberating Object Detection with Flexible Expressions
Chi Xie Zhao Zhang Yixuan Wu Feng Zhu Rui Zhao Shuang Liang
研究问题:本文旨在将物体检测任务从开放式词汇对象检测(OVD)和参考表达式理解(REC)扩展到描述对象检测(DOD),以处理更实际的场景。
动机:目前的物体检测任务,如OVD和REC,无法处理灵活的语言表达和预存对象的局限性。因此,作者提出了一个更具实用性的DOD任务。
方法:通过构建描述检测数据集($D^3$),包含灵活的语言表达(无论是简短的类别名称还是详细的描述),并在所有图像上标注所有被描述的对象,为DOD建立研究基础。同时,对现有的SOTA方法进行评估,发现并解决了REC、OVD和双功能方法在DOD任务中的问题。
效果:基于上述发现,作者提出了一种基线方法,通过重构训练数据和引入二进制分类子任务,显著提高了REC方法的性能,超过了现有方法。相关数据和代码可在https://github.com/shikras/d-cube获取,相关工作可在https://github.com/Charles-Xie/awesome-described-object-detection查看。
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graphs
Guangyao Zhai Evin Pinar Örnek Shun-Cheng Wu Yan Di Federico Tombari Nassir Navab Benjamin Busam
研究问题:本文旨在解决现有方法在场景图生成中的局限性,如忽视场景-物体和物体-物体关系,导致结果不一致。
动机:为了提高场景图生成的一致性、质量和多样性,我们提出了一种全新的生成模型CommonScenes。
方法:CommonScenes采用两个分支进行生成,一个通过变分自编码器预测整体场景布局,另一个通过潜在扩散生成兼容的形状,同时保留形状多样性。
效果:实验结果表明,CommonScenes在场景图生成的一致性、质量和多样性方面优于其他方法。
RH-BrainFS: Regional Heterogeneous Multimodal Brain Networks Fusion Strategy
Hongting Ye Yalu Zheng Yueying Li Ke Zhang Youyong Kong Yonggui Yuan
研究问题:本文旨在解决多模态脑网络研究中结构连接(SC)和功能连接(FC)的区域异质性问题,以及现有方法中通过"简单模式"进行融合的低效性。
动机:现有的多模态脑网络研究主要关注SC和FC两种模态,但它们之间的关系复杂,且在区域层面的耦合是异质的。然而,以前的研究忽视了SC和FC之间的模态区域异质性,并通过"简单模式"进行融合,这影响了模型的整体性能。
方法:本文提出了一种新的区域异质性多模态脑网络融合策略(RH-BrainFS)。首先,引入了一个脑子图网络模块来提取脑网络的区域特性,然后使用一个新的基于变压器的融合瓶颈模块来缓解SC和FC之间的区域异质性。
效果:实验结果表明,该方法在各种神经科学任务上优于几种最先进的方法。
DDF-HO: Hand-Held Object Reconstruction via Conditional Directed Distance Field
Chenyangguang Zhang Yan Di Ruida Zhang Guangyao Zhai Fabian Manhardt Federico Tombari Xiangyang Ji
研究问题:如何从单张RGB图像中重建手持物体?
动机:现有的使用有向距离场(DDF)的方法在捕捉复杂的手-物体交互方面存在局限性,因为SDF只能在目标附近可靠,无法同时编码局部手和物体线索。
方法:提出一种新的方法DDF-HO,利用有向距离场(DDF)作为形状表示。与SDF不同,DDF将3D空间中的一条射线(包括一个原点和一个方向)映射到相应的DDF值,包括确定射线是否与对象相交的二进制可见性信号和测量给定方向上原点到目标的距离的距离值。通过引入一种新颖的基于2D射线的特征聚合方案和一种3D交感性的手部姿态嵌入,结合2D-3D特征来建模手-物体交互。
效果:在合成和真实世界的数据集上的大量实验表明,DDF-HO在所有基线上都取得了显著的改进,特别是在Chamfer Distance下,提高了约80%。代码可在https://github.com/ZhangCYG/DDFHO获取。
PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline Panoramas
Zheng Chen Yan-Pei Cao Yuan-Chen Guo Chen Wang Ying Shan Song-Hai Zhang
研究问题:如何从广基线全景图像中合成新的视角。
动机:现有的神经辐射场方法在处理广基线全景图像时,由于难以从稀疏的360度视图中学习准确的几何形状,往往会过拟合训练视图。
方法:提出PanoGRF,一种用于广基线全景图像的可泛化球面辐射场,构建包含360度场景先验的球面辐射场。与在透视图像上训练的可泛化辐射场不同,PanoGRF避免了从全景到透视转换的信息损失,并直接根据球面投影聚合每个全景视图的3D样本点的几何和外观特征。此外,由于某些区域在广基线设置下只能从一个视图看到,而从其他视图看不到,PanoGRF将360度单眼深度先验纳入球面深度估计,以改善几何特征。
效果:在多个全景数据集上的实验结果表明,PanoGRF在广基线全景图像(如OmniSyn)和透视图像(如IBRNet,NeuRay)上显著优于最先进的可泛化视图合成方法。
Toward Re-Identifying Any Animal
Bingliang Jiao Lingqiao Liu Liying Gao Ruiqi Wu Guosheng Lin PENG WANG Yanning Zhang
研究问题:目前的再识别(ReID)模型主要针对特定类别如人或车辆进行设计和训练,限制了其在开放世界中的适用性。
动机:考虑到ReID技术对于野生动物种群和迁移模式跟踪的重要性,提出了一个新的任务“在野外识别任何动物”(ReID-AW)。
方法:创建了一个名为Wildlife-71的综合数据集,包含来自71个不同野生动物类别的ReID数据。开发了一个名为UniReID的通用再识别模型,用于处理遇到的任何未见过的动物类别。使用基于目标类别预选图像生成的动态提示机制增强模型对目标类别的适应性。利用大规模预训练的语言模型GPT-4获取的显式语义知识,使UniReID能够专注于区分目标类别中的个体的区域。
效果:实验表明,UniReID模型具有显著的泛化能力,在处理任意野生动物类别方面表现出色,为野生动物保护和研究目的的ReID领域提供了重大进步。
Glance and Focus: Memory Prompting for Multi-Event Video Question Answering
Ziyi Bai Ruiping Wang Xilin CHEN
研究问题:视频问答(VideoQA)是评估机器理解人类日常行为的重要工具,但复杂的视频情况推理仍然具有挑战性。
动机:人类通过一系列情节记忆作为锚点快速定位与问题相关的关键时刻进行推理,而现有的模型难以实现这种有效的推理策略。
方法:提出一种Glance-Focus模型,该模型在扫视阶段训练一个编码器-解码器生成一组动态事件记忆,然后在聚焦阶段,这些事件记忆作为桥梁建立问题与高层次事件概念和低层次长视频内容之间的关联。
效果:在四个多事件视频问答基准测试(STAR、EgoTaskQA、AGQA、NExT-QA)上进行的广泛实验表明,提出的模型取得了最先进的结果,超越了当前大型模型在各种具有挑战性的推理任务上的表现。
PDF: Point Diffusion Implicit Function for Large-scale Scene Neural Representation
Yuhan Ding Fukun Yin Jiayuan Fan Hui Li Xin Chen Wen Liu Chongshan Lu Gang YU Tao Chen
研究问题:如何有效地对大规模户外场景进行神经表征。
动机:现有的隐式神经表征方法在采样空间中采样和融合单个点,但由于采样空间的爆炸性增长,对无边界的大型户外场景进行详细纹理的精细表示和合成仍然是一个挑战。
方法:我们提出了一种点扩散隐函数(PDF)来对大型场景进行神经表征。该方法的核心是一个大规模的点云超分辨率扩散模块,该模块将由几张训练图像重建的稀疏点云增强为一个密集的点云作为显式先验。然后在渲染阶段,只保留采样半径内有先验点的采样点,即采样空间从无边界空间缩小到场景表面。同时,为了填补点云无法提供的的场景背景,我们采用基于Mip-NeRF 360的区域采样来建模背景表示。
效果:实验证明,我们的方法在大型场景新视角合成方面非常有效,优于相关的最先进的基线方法。
CluB: Cluster Meets BEV for LiDAR-Based 3D Object Detection
Yingjie Wang Jiajun Deng Yuenan Hou Yao Li Yu Zhang Jianmin Ji Wanli Ouyang Yanyong Zhang
研究问题:如何有效地将两种互补的表示方法(BEV-based detectors和cluster-based detectors)结合到一个统一的框架中。
动机:目前的激光雷达3D探测器主要分为两类,即基于BEV的检测器和基于聚类的检测器,这两类方法各有优势,但如何将它们有效结合仍是一个挑战。
方法:本文提出了一种新的3D物体检测框架CluB,通过在基于BEV的检测器中加入辅助的聚类分支,丰富了物体在特征和查询层面的表示。具体来说,CluB包括两个步骤:首先,构建一个聚类特征扩散模块,以微妙且自适应的方式建立聚类特征与BEV特征之间的关联;其次,设计一个聚类查询生成模块,直接从聚类分支利用投票中心,从而丰富物体查询的多样性。
效果:在Waymo和nuScenes数据集上进行了大量实验,CluB在这两项基准测试上都取得了最先进的性能。
Lightweight Vision Transformer with Bidirectional Interaction
Qihang Fan Huaibo Huang Xiaoqiang Zhou Ran He
研究问题:本文旨在解决视觉骨干网络中局部和全局上下文双向交互的问题。
动机:尽管视觉骨干网络在同时建模图像的局部和全局上下文方面取得了显著进步,但这两种上下文之间的双向交互尚未得到充分探索和利用。
方法:本文提出了一种名为FASA的全自适应自我注意力机制,用于视觉变压器模型,以上下文感知的方式对局部和全局信息以及它们之间的双向交互进行建模。具体来说,FASA采用自适应卷积来提取局部表示,同时在降采样空间中使用自我注意来提取全局表示。然后,它在局部和全局表示之间进行双向适应过程以模拟它们的交互。此外,我们还引入了细粒度的降采样策略,以提高降采样的自我注意机制的细粒度全局感知能力。基于FASA,我们开发了一个轻量级的视觉骨干网络系列,即FAT系列。
效果:在多个视觉任务上的大量实验表明,FAT实现了令人印象深刻的性能。值得注意的是,FAT仅使用4.5M参数和0.7G FLOPs就在ImageNet-1K上实现了77.6%的准确率,超过了具有相似模型大小和计算成本的最先进卷积神经网络和变压器。此外,我们的模型在现代GPU上的速度比其他模型更快。
Single-Stage Visual Query Localization in Egocentric Videos
Hanwen Jiang Santhosh Kumar Ramakrishnan Kristen Grauman
研究问题:本文旨在解决长形式自我中心视频的视觉查询定位问题,需要对视觉指定的对象进行时空搜索和定位,这对于构建情景记忆系统至关重要。
动机:现有的工作通过复杂的多阶段管道利用成熟的目标检测和跟踪方法来执行VQL,但每个阶段都是独立训练的,管道的复杂性导致推理速度慢。
方法:我们提出了一种新的单阶段VQL框架VQLoC,它是端到端可训练的。我们的关键思想是首先建立查询-视频关系的全面理解,然后一次性进行时空定位。具体来说,我们通过考虑查询与视频帧之间的查询-帧对应关系以及相邻视频帧之间的帧-帧对应关系来建立查询-视频关系。
效果:我们的实验表明,我们的方法比先前的VQL方法准确率提高了20%,同时推理速度提高了10倍。VQLoC也是Ego4D VQ2D挑战赛排行榜的第一名。
Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language Perspective
Yingying Fan Yu Wu Bo Du Yutian Lin
研究问题:本文旨在解决弱监督的音视视频解析任务(AVVP),即识别和定位所有音频/视觉模态中的事件。
动机:以往的工作只关注跨模态的视频级总体标签去噪,忽视了段级别标签噪声,即相邻的视频片段可能包含不同的事件。而识别段级别的事件具有挑战性,因为其标签可能是视频中发生的任何事件组合。
方法:我们从语言的角度来解决AVVP问题,设计语言提示来描述每个视频中各种事件的出现情况。然后,计算语言提示与片段之间的相似性,最相似的提示的事件被认定为段级别的标签。此外,为了处理误标段,我们提出对不可靠的段进行动态重新加权以调整它们的标签。
效果:实验表明,我们这种简单而有效的方法比最先进的方法有大幅度的提高。
Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs
Peng Jin Yang Wu Yanbo Fan Zhongqian Sun Yang Wei Li Yuan
研究问题:目前的文本驱动人体运动生成方法主要采用序列建模,但这些紧凑的文本表示可能会过度强调动作名称,而忽视其他重要属性,缺乏指导微妙区别运动的精细细节。
动机:为了解决上述问题,本文提出了一种层次化语义图的方法,用于对人体运动生成进行细粒度的控制。
方法:我们将运动描述分解为包括三个级别的层次化语义图:运动、动作和具体细节。这种从全局到局部的结构有助于全面理解运动描述,并对运动生成进行细粒度控制。
效果:在两个基准人体运动数据集HumanML3D和KIT上的大量实验表明,我们的方法具有优越的性能。更令人鼓舞的是,通过修改层次化语义图的边缘权重,我们的方法可以不断细化生成的运动,这可能对社区产生深远影响。
ReTR: Modeling Rendering Via Transformer for Generalizable Neural Surface Reconstruction
Yixun Liang Hao He Ying-Cong Chen
研究问题:现有的神经表面重建技术由于采用过于简化的体积渲染过程,存在深度分布信心不足和表面推理不准确的问题。
动机:本文提出了一种新的框架Reconstruction TRansformer(ReTR),利用变压器架构重新设计渲染过程,以实现复杂的渲染交互建模。
方法:ReTR引入了一个可学习的元射线令牌,并利用交叉注意力机制模拟采样点与渲染过程的交互,从而渲染出观察到的颜色。同时,通过在高维特征空间而不是颜色空间中操作,ReTR减轻了对源视图投影颜色的敏感性。
效果:实验结果表明,该方法在各种数据集上均表现出色,无论是在重建质量还是泛化能力方面,都优于当前最先进的方法。
HyP-NeRF: Learning Improved NeRF Priors using a HyperNetwork
Bipasha Sen Gaurav Singh Aditya Agarwal Rohith Agaram Madhava Krishna Srinath Sridhar
研究问题:如何利用高维网络权重空间学习具有泛化能力的NeRF先验,以捕获场景和物体的高质量外观和形状。
动机:现有的工作在泛化、多视图一致性和质量改进方面存在限制,因此提出HyP-NeRF,一种使用超网络学习具有泛化能力的类别级NeRF先验的潜在条件方法。
方法:我们不仅使用超网络来估计NeRF的权重,还估计多分辨率哈希编码,从而显著提高质量。此外,我们还引入了去噪和微调策略,对由超网络估计的NeRF渲染的图像进行去噪,并在保留多视图一致性的同时进行微调。
效果:这些改进使我们能够将HyP-NeRF用作多个下游任务的通用先验,包括从单视图或杂乱场景重建NeRF以及文本到NeRF。我们在三个任务上进行了定性比较和评估:泛化、压缩和检索,展示了我们最先进的结果。
Learning Unseen Modality Interaction
Yunhua Zhang Hazel Doughty Cees G. M. Snoek
研究问题:本文挑战了多模态学习中模态完整假设,即训练期间所有感兴趣的模态组合都是可用的,并致力于在推理期间推广到未见过的组合。
动机:为了解决未见过模态交互的问题,提出了一种解决方案,通过将不同模态的多维特征投影到一个保留丰富信息的共同空间中,使信息可以通过简单的求和操作累积在所有可用的模态上。
方法:进一步通过伪监督来减少对训练过程中较少判别性模态组合的过拟合,该伪监督指示了模态预测的可靠性。
效果:通过在多模态视频分类、机器人状态回归和多媒体检索等任务上进行评估,证明了该方法对于不同的任务和模态都是有效的。
Face Reconstruction from Facial Templates by Learning Latent Space of a Generator Network
Hatef Otroshi Shahreza Sébastien Marcel
研究问题:本文主要关注针对人脸识别系统的模板反转攻击,并提出一种从人脸模板重建人脸图像的新方法。
动机:在基于生成对抗网络(GAN)的框架下,我们学习了从人脸模板到预训练的人脸生成网络的中间潜在空间的映射,从而可以生成高分辨率的真实重建人脸图像。
方法:我们在预训练的人脸生成网络的中间潜在空间中,通过对抗性训练的方式,学习了一个从人脸模板到重建人脸图像的映射。
效果:我们的实验表明,该方法在白盒和黑盒攻击场景下都能成功进行人脸识别系统的重构,并且重构的人脸图像具有可迁移性,可用于对其他人脸识别系统的攻击。
SpatialRank: Urban Event Ranking with NDCG Optimization on Spatiotemporal Data
BANG AN Xun Zhou Yongjian Zhong Tianbao Yang
研究问题:城市事件排名旨在预测未来最危险的前k个地点,如交通事故和犯罪。
动机:由于地点之间的复杂动态时空关联性、城市事件在空间上的不均匀分布以及难以正确排序具有相似特征的附近地点,这个问题具有挑战性。
方法:我们提出了一种名为SpatialRank的新型空间事件排名方法。该方法通过从数据中动态学习地点之间的时空依赖关系来优化NDCG损失。
效果:实验证明,SpatialRank能有效识别犯罪和交通事故的最危险地点,并在NDCG方面比最先进的方法高出12.7%。
Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation
Zibo Zhao Wen Liu Xin Chen Xianfang Zeng Rui Wang Pei Cheng BIN FU Tao Chen Gang YU Shenghua Gao
研究问题:如何有效地从2D图像或文本生成3D形状。
动机:直接从图像或文本学习条件生成模型到3D形状,由于3D形状具有与2D图像和文本显著不同的分布的额外维度,往往会导致结果与条件不一致。
方法:提出了一种先对齐后生成的新方法,通过在形状-图像-文本对齐的空间中表示3D形状来弥合三个模态之间的领域差距,并促进多模态条件下的3D形状生成。该方法包括两个模型:形状-图像-文本对齐变分自编码器(SITA-VAE)和条件对齐形状潜在扩散模型(ASLDM)。
效果:实验证明,该方法能生成更高质量、更多样化的3D形状,更好地符合视觉或纹理条件输入,验证了形状-图像-文本对齐空间在跨模态3D形状生成中的有效性。
HEDNet: A Hierarchical Encoder-Decoder Network for 3D Object Detection in Point Clouds
Gang Zhang Chen Junnan Guohuan Gao Jianmin Li Xiaolin Hu
研究问题:本文旨在解决自动驾驶系统中的3D物体检测问题,特别是由于3D场景中点的稀疏分布导致的主要挑战。
动机:现有的高性能方法通常使用小内核的3D稀疏卷积神经网络来提取特征,但这会阻止空间上断开的特征之间的信息交换。虽然一些新的方法试图通过引入大内核卷积或自我注意力机制来解决这个问题,但它们要么只能实现有限的精度改进,要么会导致过度的计算成本。
方法:我们提出了HEDNet,一种用于3D物体检测的分层编码器-解码器网络。该网络利用编码器-解码器块在空间空间中捕获特征之间的长范围依赖性,特别是对于大型和远距离的物体。
效果:我们在Waymo Open和nuScenes数据集上进行了广泛的实验。实验结果表明,HEDNet在这两个方面都优于先前最先进的方法,同时具有竞争力的效率。
Slot-guided Volumetric Object Radiance Fields
DI QI Tong Yang Xiangyu Zhang
研究问题:如何有效地从单张图像中分解复杂场景为单个对象,实现无监督的三维物体中心表示学习。
动机:现有的方法在处理复杂的场景分解任务时,往往需要大量的标注数据和计算资源,且无法实现真正的无监督学习。
方法:提出了一种新的框架sVORF(slot-guided Volumetric Object Radiance Fields),通过将物体槽位作为指导,将体积物体辐射场进行组合,实现无监督的3D场景分解。
效果:在复杂的合成数据集(如Room-Diverse)的场景分解和生成任务上取得了优秀的结果,并在真实世界场景(如LLFF数据集)的对象分割任务上也表现出良好的性能。
Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection
Lingchen Meng Xiyang Dai Jianwei Yang Dongdong Chen Yinpeng Chen Mengchen Liu Yi-Ling Chen Zuxuan Wu Lu Yuan Yu-Gang Jiang
研究问题:本文旨在解决现实世界数据集中极度不平衡的长尾巴对象检测问题,其中许多尾部类别的实例稀缺。
动机:现有的长尾巴对象检测方法主要通过探索具有图像级别标签的额外数据来解决数据不平衡问题,但由于语义模糊和位置敏感性,这种方法的效果有限。
方法:本文提出了一种名为RichSem的方法,该方法从粗糙的位置中学习丰富的语义,无需精确的边界框。RichSem利用图像中的丰富语义作为额外的“软监督”来训练检测器。具体来说,我们在检测器中添加了一个语义分支来学习这些软语义并增强特征表示。
效果:实验结果表明,RichSem在LVIS的整体和稀有类别上都取得了一致的改进,且无需复杂的训练和测试程序,达到了最先进的性能。此外,我们还在其他长尾数据集上进行了额外的实验,证明了我们方法的有效性。
Uni3DETR: Unified 3D Detection Transformer
Zhenyu Wang Ya-Li Li Xi Chen Hengshuang Zhao Shengjin Wang
研究问题:目前,针对特定场景(室内或室外)的基于点云的3D检测器存在差异大、缺乏统一网络架构的问题。
动机:由于从各种环境中收集的点云中对象分布和点密度的差异,以及3D度量的复杂性,目前还没有能够适应不同场景的统一网络架构。
方法:本文提出了Uni3DETR,一种统一的3D检测器,在同一框架内解决室内和室外3D检测问题。具体来说,我们采用带有点-体素交互的检测变换器进行目标预测,利用体素特征和点进行交叉注意力,并对数据差异具有抵抗力。然后,我们提出了查询点的混合,对于密集的小范围室内场景充分挖掘全局信息,对于大范围稀疏的室外场景则充分利用局部信息。此外,我们提出的解耦IoU通过将$xy$和$z$空间分开,为定位提供了一个易于优化的训练目标。
效果:大量实验证明,Uni3DETR在室内和室外3D检测上始终表现出优异的性能。与之前可能在某些特定数据集上表现良好但在不同场景下性能大幅下降的专业检测器相比,Uni3DETR在异构条件下显示出强大的泛化能力。
Neural Lighting Simulation for Urban Scenes
Ava Pun Gary Sun Jingkang Wang Yun Chen Ze Yang Sivabalan Manivasagam Wei-Chiu Ma Raquel Urtasun
研究问题:户外光照条件的变化会显著改变城市景观的外观,如果训练过程中未考虑到这些变化,可能会对基于图像的机器人感知系统的性能造成损害。
动机:为了解决这个问题,我们提出了一种名为LightSim的神经光照相机模拟系统,用于生成不同光照条件下的大量图像数据集。
方法:LightSim从收集的原始传感器数据中自动构建大规模的光照感知数字双胞胎,并将场景分解为具有精确几何形状、外观和估计场景光照的动态演员和静态背景。然后,通过物理基础和可学习延迟渲染的结合,对修改后的场景进行真实的重照明,如改变太阳位置、修改阴影或改变太阳亮度,从而产生空间和时间一致的相机视频。
效果:实验表明,LightSim生成的重照明结果比现有工作更真实。更重要的是,在LightSim生成的数据上训练感知模型可以显著提高其性能。
A Dual-Stream Neural Network Explains the Functional Segregation of Dorsal and Ventral Visual Pathways in Human Brains
Minkyu Choi Kuan Han Xiaokai Wang Yizhen Zhang Zhongming Liu
研究问题:计算机视觉系统通常使用单一的前馈路径,这导致其鲁棒性、适应性或效率不如人类视觉。
动机:为了弥合这一差距,我们开发了一种受人类眼睛和大脑启发的双流视觉模型。
方法:该模型在输入级别模拟人眼如何使用大细胞视网膜神经节细胞和小细胞视网膜神经节细胞将视网膜输入分离到大脑,后端则通过两个并行的卷积神经网络分支处理分离的输入模式,模拟人脑如何使用背侧和腹侧皮质通路进行并行视觉处理。
效果:通过比较该模型与人类大脑处理同一部电影的情况,我们发现WhereCNN和WhatCNN分支分别主要对应于视觉皮层的背侧和腹侧通路,这主要是因为它们不同的学习目标,而非它们的视网膜采样或对注意力驱动眼球运动的敏感性的差异。这种双流模型在受大脑启发的计算机视觉中迈出了重要一步,使并行神经网络能够积极地探索和理解视觉环境。
MAViL: Masked Audio-Video Learners
Po-Yao Huang Vasu Sharma Hu Xu Chaitanya Ryali Haoqi Fan Yanghao Li Shang-Wen Li Gargi Ghosh Jitendra Malik Christoph Feichtenhofer
研究问题:如何利用自我监督学习从音频和视频中学习表示。
动机:现有的方法在多模态分类和检索任务上的性能有待提高,并且需要依赖其他模态的信息进行单模态的微调或推理。
方法:提出Masked Audio-Video Learners(MAViL)模型,通过三种互补的自我监督形式进行训练:重建被遮蔽的原始音频和视频输入、使用遮蔽进行的模内和模间对比学习以及预测从前两个目标中学习到的对齐和上下文化的音频-视频表示的自我训练。
效果:实验结果表明,MAViL在AudioSet和VGGSound上取得了最先进的音频-视频分类性能,超越了最近的自我监督模型和使用外部标记数据的监督模型。此外,使用MAViL预训练不仅可以提高多模态分类和检索任务的性能,还可以改善每个模态的独立表示,无需在单模态微调或推理过程中依赖其他模态的信息。
FourierHandFlow: Neural 4D Hand Representation Using Fourier Query Flow
Jihyun Lee Junbong Jang Donghwan Kim Minhyuk Sung Tae-Kyun Kim
研究问题:现有的4D形状表示模型无法有效地捕捉关节形状之间的隐含对应关系或规范抖动的临时变形。
动机:为了解决上述问题,本文提出了一种结合3D占据场和关节感知查询流(表示为傅立叶级数)的时空连续手部表示方法——FourierHandFlow。
方法:通过学习输入RGB序列的傅立叶系数来保证平滑和连续的临时形状动态。同时,通过两种类型的傅立叶查询流(姿势流和形状流)来有效建模关节手部的时空变形。
效果:实验结果表明,该方法在基于视频的4D重建任务上取得了最先进的结果,并且比现有的3D/4D隐式形状表示更具计算效率。此外,我们还展示了使用学习的隐式形状对应进行运动插值和外推以及纹理转移的结果。据我们所知,FourierHandFlow是第一个从RGB视频中学习到的神经4D连续手部表示。
NeuralGF: Unsupervised Point Normal Estimation by Learning Neural Gradient Function
Qing Li Huifang Feng Kanle Shi Yue Gao Yi Fang Yu-Shen Liu Zhizhong Han
研究问题:本文旨在解决3D点云中正常估计的问题,即如何直接从无监督的点云数据中估计有向法线。
动机:目前最先进的方法依赖于从正常监督学习的局部表面的先验知识,但这种方法在真实扫描中无法获得,限制了其应用范围。此外,没有单独的后处理程序,形状间的法线方向一致性也很难实现。
方法:本文提出了一种新的方法,通过引入新的神经网络梯度函数学习范式,鼓励网络拟合输入的点云并在点上产生单位范数的梯度,从而直接从点云中估计有向法线。具体来说,我们引入了损失函数,使查询点逐步达到移动目标并聚合到近似表面上,从而学习数据的全局表面表示。同时,我们将梯度纳入表面近似,以测量查询点的最小有符号偏差,从而得到与表面关联的一致梯度场。
效果:实验结果表明,该方法在噪声、异常值和密度变化方面具有鲁棒性,并且在无向和有向法线估计任务上都能比最新的方法学习出更准确的法线。源代码和预训练模型已公开。
LuminAIRe: Illumination-Aware Conditional Image Repainting for Lighting-Realistic Generation
Jiajun Tang Haofeng Zhong Shuchen Weng Boxin Shi
研究问题:本文旨在解决近期条件图像重绘(CIR)方法中存在的不真实的光照效果问题。
动机:现有的条件图像重绘方法在处理光照效果时存在不真实感,因此需要提出一种新的方法来解决这个问题。
方法:通过参数化光照表示和基于学习的先验知识,从给定的背景图像和解析掩码中明确估计环境光照和3D几何条件。然后,通过提出的物理基础的光照渲染和光照注意力模块将这些3D条件转换为光照图像。最后,将光照图像注入到光照信息生成过程中,得到具有和谐光照效果的前背景区域重绘图像。
效果:实验结果证明,该方法生成的重绘图像在光照效果上优于现有方法,并通过收集带有光照注释和丰富外观变化的Car-LuminAIRe数据集进行验证。
Generative Category-level Object Pose Estimation via Diffusion Models
Jiyao Zhang Mingdong Wu Hao Dong
研究问题:本文旨在解决多假设问题,即在部分观察点云中进行类别级别的物体姿态估计。
动机:尽管现有的方法可以在部分观察的点云中进行类别级别的物体姿态估计,但它们面临着挑战。因此,本文提出了一种新的解决方案,将类别级别的物体姿态估计重新定义为条件生成模型,从而摆脱了传统的点对点回归。
方法:本文利用基于分数的扩散模型来估计物体的姿态,通过从扩散模型中采样候选对象并进行两步处理来实现:首先通过似然估计过滤掉异常值,然后对剩余的候选对象进行均值池化。为了避免在估计似然时进行昂贵的集成过程,本文引入了一种替代方法,即从原始的基于分数的模型中提取出能量基础模型,从而实现端到端的似然估计。
效果:该方法在REAL275数据集上取得了最先进的性能,严格5 ◦ 2cm和5 ◦ 5cm指标分别超过了50%和60%。此外,该方法还表现出强大的泛化能力,可以适应新类别而无需微调,并且可以轻松适应物体姿态跟踪任务,与当前最先进的基线方法相比具有相当的结果。
Learning Environment-Aware Affordance for 3D Articulated Object Manipulation under Occlusions
Ruihai Wu Kai Cheng Yan Zhao Chuanruo Ning Guanqi Zhan Hao Dong
研究问题:如何让家庭助理机器人在各种环境中感知和操作三维关节对象。
动机:现有的研究主要关注单对象场景,忽视了环境约束和机器人形态(如遮挡和物理限制)带来的现实限制。
方法:提出一种环境感知的可负担性框架,结合了对象级别的可执行先验知识和环境约束。为了解决组合爆炸的问题并提高数据效率,引入了一种新颖的对比可负担性学习框架,可以在包含单个遮挡物的场景中进行训练,并推广到具有复杂遮挡物组合的场景。
效果:实验表明,该方法能有效学习考虑环境约束的可负担性。
A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose Estimation
Qitao Zhao Ce Zheng Mengyuan Liu Chen Chen
研究问题:现有的3D人体姿态估计主要依赖于长期的时间线索(即使用大量的视频帧)来提高准确性,但这会导致性能饱和、难以计算和因果问题。
动机:由于2D关节坐标没有视觉提示,无法感知空间上下文,因此需要解决这个问题。
方法:利用现成的2D姿态检测器产生的中间视觉表示,无需在3D任务上进行微调。这些表示(如特征图)由于骨干网络的区域操作,隐式地编码了以关节为中心的空间上下文。
效果:在不使用任何时间信息的情况下,该方法在速度和精度上都显著优于其上下文无关的对应物PoseFormer和其他使用数百个视频帧的最新方法。
Transitivity Recovering Decompositions: Interpretable and Robust Fine-Grained Relationships
Abhra Chaudhuri Massimiliano Mancini Zeynep Akata Anjan Dutta
研究问题:本文旨在通过将抽象的关系表示形式解释为图像视图的可解释图,来解构这种抽象性。
动机:尽管细粒度表示学习的最新进展利用局部到全局(浮现)关系实现了最先进的结果,但这些方法依赖的关系表示是抽象的。
方法:我们设计了一种名为“传递恢复分解”(TRD)的图空间搜索算法,该算法可以在实例和类别级别识别抽象浮现关系的可解释等价物,无需后计算。
效果:实验结果表明,TRD能够实现与最先进的技术相媲美甚至更好的性能,同时是完全可解释的。
Rank-DETR for High Quality Object Detection
Yifan Pu Weicong Liang Yiduo Hao Yuhui Yuan Yukang Yang Chao Zhang Han Hu Gao Huang
研究问题:现有的DETR模型在预测物体边界框时,由于分类得分与定位准确性的不匹配,导致排名靠前的预测结果的定位质量较低。
动机:为了提高DETR模型的定位精度和减少误报率,需要设计一种以排序为导向的检测器。
方法:提出了一种简单而高效的基于DETR的目标检测器Rank-DETR,包括(i)一种以排序为导向的架构设计,可以促进积极预测并抑制消极预测,以及(ii)一种以排序为导向的损失函数和匹配成本设计,优先选择定位精度更高的预测结果进行排序,以提高高IoU阈值下的AP。
效果:将该方法应用于最新的SOTA方法(如H-DETR和DINO-DETR),并在使用不同主干网络(如ResNet-50、Swin-T和Swin-L)的情况下报告了强大的COCO目标检测结果,证明了该方法的有效性。
Greatness in Simplicity: Unified Self-Cycle Consistency for Parser-Free Virtual Try-On
Chenghu Du junyin Wang Shuqing Liu Shengwu Xiong
研究问题:图像虚拟试穿任务由于非刚性服装变形建模的复杂性和人体内部服装的强大特征纠缠而具有挑战性。
动机:现有的方法需要通过辅助任务(如利用“教师知识”和双生成器)来解耦人体特征中的服装特征,这可能会成为主生成器在下游任务中的瓶颈。此外,现有的服装变形方法缺乏感知现实世界中服装与人体之间的关联的能力,导致不真实的对齐效果。
方法:提出了一种基于统一自我循环一致性的无解析器虚拟试穿网络(USC-PFN),该网络仅使用单个生成器就能实现不同服装之间的稳健转换,真实再现现实生活中的非刚性几何服装变形。具体来说,我们首先提出了一个带有循环模式的自我循环一致性架构,它只使用真实的未配对的服装人像图像作为输入进行训练,有效地消除了模型输入端不负责任的先验知识的影响。此外,我们构建了一个马尔可夫随机场来模拟更自然、更真实的服装变形。
效果:实验证明,该方法在流行的虚拟试穿基准测试上取得了最先进的性能。
FaceComposer: A Unified Model for Versatile Facial Content Creation
Jiayu Wang Kang Zhao Yifeng Ma Shiwei Zhang Yingya Zhang Yujun Shen Deli Zhao Jingren Zhou
研究问题:本文旨在开发一种统一的生成模型,用于完成各种面部内容创建任务。
动机:现有的面部生成模型无法满足多样化的面部内容创作需求,如文本条件面部合成、文本引导的面部编辑和面部动画等。
方法:基于潜在扩散框架,本文提出了FaceComposer模型,采用组成式生成范式,并利用多种面部特定条件(如身份特征和投影归一化坐标代码)来释放模型的创造力。同时,清理了一些现有的面部图像数据集,收集了约500小时的说话人面部视频,形成了高质量的大规模多模态面部数据库。在U-Net结构中引入了时间自注意力模块,使模型能够在图像和视频混合的环境中学习去噪过程。
效果:实验结果表明,本文的方法不仅在每个单独的任务上取得了与最先进的技术相当甚至更好的性能,而且在一次前向传递中促进了一些组合任务,展示了其作为面部领域基础生成模型的潜力。此外,我们还开发了一个界面,使用户能够享受我们的一站式服务,创建、编辑和动画化他们自己的字符。代码、数据集、模型和界面将公开发布。
IEBins: Iterative Elastic Bins for Monocular Depth Estimation
Shuwei Shao Zhongcai Pei Xingming Wu Zhong Liu Weihai Chen Zhengguo Li
研究问题:单目深度估计是计算机视觉中的基本主题和许多下游应用的核心技术。
动机:最近,一些方法将单目深度估计重新定义为分类-回归问题,其中概率分布和箱位中心的线性组合用于预测深度。
方法:本文提出了一种新的迭代弹性箱(IEBins)概念,用于基于分类-回归的单目深度估计。提出的IEBins旨在通过逐步优化搜索范围来寻找高质量的深度,这涉及到多个阶段,每个阶段在其前一阶段的基础上在目标箱上执行更细粒度的深度搜索。
效果:在KITTI、NYU-Depth-v2和SUN RGB-D数据集上的大量实验表明,提出的方法超过了先前最先进的竞争对手。源代码可在https://github.com/ShuweiShao/IEBins上公开获取。
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment
Zihui Xue Kristen Grauman
研究问题:如何将不同视角的人类活动进行统一表示,以应用于机器人技术和增强现实。
动机:现有方法需要同步的配对视角数据来学习视图不变的特征,限制了其应用范围。
方法:提出一种自监督嵌入方法AE2,通过在时间上对齐自我中心和外向中心的视频,即使它们不是同时捕获或在同一环境中,也能学习到细粒度的动作特征。
效果:在四个数据集上进行的评估表明,AE2方法在常规和交叉视图设置下的多种细粒度下游任务上都优于现有工作。
CoDet: Co-occurrence Guided Region-Word Alignment for Open-Vocabulary Object Detection
Chuofan Ma Yi Jiang Xin Wen Zehuan Yuan XIAOJUAN QI
研究问题:如何从图像-文本对中可靠地推导出区域-词的对齐,以学习开放词汇对象检测的对象级视觉语言表示。
动机:现有的方法通常依赖于预训练或自训练的视觉语言模型进行对齐,这在定位精度或泛化能力上存在局限性。
方法:本文提出了一种新的方法CoDet,通过将区域-词的对齐重新表述为共同出现的对象发现问题,克服了对预先对齐的视觉语言空间的依赖。
效果:大量实验表明,CoDet在开放词汇检测中具有优越的性能和引人注目的可扩展性,例如,通过扩大视觉主干,CoDet在OV-LVIS上实现了37.0 $AP^m_{novel}$ 和44.7 $AP^m_{all}$,超过了以前的SoTA 4.2 $AP^m_{novel}$ 和9.8 $AP^m_{all}$。代码可在https://github.com/CVMI-Lab/CoDet获取。
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF
Stefan Lionar Xiangyu Xu Min Lin Gim Hee Lee
研究问题:本文旨在解决当前单视图RGB-D输入的3D重建领域的两个主要限制:1)处理大量查询点的Transformer解码器效率低下;2)3D表示难以恢复高保真细节。
动机:目前最先进的方法MCC通过结合视觉变压器和大规模训练在单视图RGB-D输入的3D重建领域取得了前所未有的成功,但存在上述两个主要限制。
方法:本文提出了一种新的方法NU-MCC,包括两个关键创新:邻域解码器和排斥性无符号距离函数(Repulsive UDF)。首先,我们的邻域解码器引入中心点作为输入视觉特征的有效代理,使每个查询点仅关注一个小邻域。这种设计不仅导致更快的推理速度,而且能够利用更精细的视觉特征来改善3D纹理的恢复。其次,我们提出的排斥性UDF是MCC中使用占有场的新颖替代方案,显著提高了3D对象重建的质量。
效果:实验结果表明,NU-MCC能够学习强大的3D表示,大大推进了单视图3D重建领域的最新技术。特别是在CO3D-v2数据集上,NU-MCC的F1得分比MCC高出9.7%,并且运行速度超过5倍。
D$^2$CSG: Unsupervised Learning of Compact CSG Trees with Dual Complements and Dropouts
Fenggen Yu Qimin Chen Maham Tanveer Ali Mahdavi Amiri Hao Zhang
研究问题:如何利用神经网络模型进行无监督学习,以获取3D CAD形状的紧凑构造实体几何(CSG)表示。
动机:现有的神经CSG模型无法有效地处理复杂和高亏格的CAD形状,需要一种更有效的方法来学习和重建这些形状。
方法:提出了一个由两个互补网络分支组成的新型神经网络模型D$^2$CSG,通过固定顺序的四维原始组件装配来重构3D形状。该模型具有专门的残差分支来组装可能复杂的形状补体,并通过权重丢弃进一步去除冗余的原始组件,以提高CSG树的紧凑性。
效果:实验证明,D$^2$CSG能够产生更紧凑、质量更高、更具自然性的CSG重建,特别是在处理复杂和高亏格的CAD形状时,其性能明显优于所有现有方法。
FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing
Mingyuan Zhang Huirong Li Zhongang Cai Jiawei Ren Lei Yang Ziwei Liu
研究问题:现有的文本驱动运动生成方法在生成复杂运动序列和精细描述方面存在困难,限制了其在更广泛用户群体中的应用。
动机:为了解决这些挑战,我们提出了FineMoGen,一种基于扩散的运动生成和编辑框架,能够根据用户的精细指令合成精细运动。
方法:FineMoGen建立在一种新的转换器架构Spatio-Temporal Mixture Attention SAMI上,该架构从两个角度优化全局注意力模板的生成:1)显式建模时空组合的约束;2)利用稀疏激活的混合专家自适应提取精细特征。
效果:通过广泛的实验验证,FineMoGen在运动生成质量上超过了最先进的方法。特别是在现代大型语言模型(LLM)的帮助下,FineMoGen实现了零样本运动编辑能力,可以忠实地操纵具有精细指令的运动序列。
VideoComposer: Compositional Video Synthesis with Motion Controllability
Xiang Wang Hangjie Yuan Shiwei Zhang Dayou Chen Jiuniu Wang Yingya Zhang Yujun Shen Deli Zhao Jingren Zhou
研究问题:如何实现可控的视频合成,特别是在考虑时间动态变化和跨帧时间一致性的情况下。
动机:为了提高视觉内容创作的控制性,目前的自定义图像合成已经取得了显著的进步,但视频合成仍面临挑战。
方法:本文提出了一种基于组合生成范式的VideoComposer,允许用户通过文本条件、空间条件以及更重要的是时间条件灵活地合成视频。具体来说,考虑到视频数据的特性,我们引入了压缩视频中的运动向量作为显式控制信号,以提供关于时间动态的指导。此外,我们还开发了一个时空条件编码器(STC-encoder),作为统一接口来有效整合序列输入的空间和时间关系,使模型能够更好地利用时间条件,从而实现更高的帧间一致性。
效果:实验结果表明,VideoComposer能够在合成的视频中同时控制空间和时间模式,形式包括文本描述、草图序列、参考视频甚至简单的手工制作的动作。代码和模型已公开发布在[链接]。
DäRF: Boosting Radiance Fields from Sparse Input Views with Monocular Depth Adaptation
Jiuhn Song Seonghoon Park Honggyu An Seokju Cho Min-Seop Kwak Sungjin Cho Seungryong Kim
研究问题:现有的Neural radiance field(NeRF)模型在已知视角数量大幅减少时,性能会严重下降。
动机:为了解决这个问题,研究人员尝试使用外部先验知识,但这种方法只对某些类型的场景或数据集有效。因此,研究者提出利用预训练在大规模RGB-D数据集上的单目深度估计(MDE)网络可能是解决问题的关键。
方法:研究者提出了一个名为DäRF的新框架,通过在线互补训练将NeRF和单目深度估计的优点结合起来,实现了少数真实世界图像的鲁棒NeRF重建。
效果:实验表明,该框架在室内和室外真实世界数据集上均取得了最先进的结果,无论是定量还是定性,都表现出一致且可靠的性能。
Segment Anything in 3D with NeRFs
Jiazhong Cen Zanwei Zhou Jiemin Fang chen yang Wei Shen Lingxi Xie Dongsheng Jiang XIAOPENG ZHANG Qi Tian
研究问题:如何将强大的2D视觉基础模型SAM扩展到3D对象分割。
动机:避免在3D中复制昂贵的数据获取和注释过程,利用Neural Radiance Field (NeRF)作为连接多视图2D图像到3D空间的廉价且现成的先验。
方法:提出称为SA3D(用于3D中的任何事物的分割)的解决方案。只需为目标对象在单个视图中提供手动分割提示(例如,粗略的点),用于在该视图中使用SAM生成其2D掩码。接下来,SA3D通过各种视图交替执行掩码反向渲染和跨视图自我提示,以迭代完成使用体素网格构建的目标对象的3D掩码。前者将SAM在当前视图中获得的2D掩模投影到带有由NeRF学习的密度分布的3D掩模上;后者从另一个视图中由NeRF渲染的2D掩模自动提取可靠的提示作为SAM的输入。
效果:实验表明,SA3D适应各种场景并在几分钟内实现3D分割。这项研究提供了一种通用而高效的方法,将2D视觉基础模型提升到3D,只要2D模型可以稳定地处理多个视图中的提示性分割。
MultiMoDN—Multimodal, Multi-Task, Interpretable Modular Networks
Vinitra Swamy Malika Satayeva Jibril Frej Thierry Bossy Thijs Vogels Martin Jaggi Tanja Käser Mary-Anne Hartley
研究问题:如何预测多种真实世界任务,特别是在一个模型中需要特别多样化的特征空间?
动机:当前的多模态(MM)模型在融合不同类型数据表示时存在限制,如解释性差和对模态可用性的依赖。
方法:提出MultiModN,一种多模态、模块化网络,能在任意数量、组合或类型的模态中以序列方式融合潜在表示,同时为任何数量或组合的预测任务提供细粒度的实时预测反馈。
效果:在多个基准多模态数据集上进行10个真实世界任务的实验,结果显示MultiModN的序列多模态融合不逊色于并行融合的基线。通过模拟具有挑战性的非随机缺失(MNAR)偏见,证明与并行融合基线相反,MultiModN不会错误地学习MNAR,并在面对不同的MNAR模式时具有更强的鲁棒性。这是首个固有的MNAR抗性多模态建模方法。
Towards Label-free Scene Understanding by Vision Foundation Models
Runnan Chen Youquan Liu Lingdong Kong Nenglun Chen Xinge ZHU Yuexin Ma Tongliang Liu Wenping Wang
研究问题:本文旨在探索视觉基础模型在无标签场景理解中的应用。
动机:虽然对比视觉语言预训练(CLIP)和分割任何物体(SAM)等视觉基础模型在图像分类和分割任务上表现出色,但它们在无标签场景理解中的潜力尚未得到探索。
方法:提出一种新的跨模态噪声监督(CNS)方法,利用CLIP和SAM的优势同时监督2D和3D网络。通过引入预测一致性正则化来共同训练2D和3D网络,然后使用SAM的鲁棒特征表示进一步强制网络的潜在空间一致性。
效果:在各种室内和室外数据集上的实验表明,该方法在理解2D和3D开放环境方面具有优越性能。我们的2D和3D网络在ScanNet上实现了无标签语义分割,mIoU分别为28.4%和33.5%,分别提高了4.7%和7.9%。在nuImages和nuScenes数据集上,性能分别为22.1%和26.8%,分别提高了3.5%和6.0%。
Aligning Gradient and Hessian for Neural Signed Distance Function
Ruian Wang Zixiong Wang Yunxiao Zhang Shuangmin Chen Shiqing Xin Changhe Tu Wenping Wang
研究问题:如何从无序的点云中直接学习有符号距离函数(SDF),以重建一个无漏水的表面。
动机:在平滑表面上,存在一个薄壳空间,其中SDF在所有地方都可微分,使得SDF的梯度是其海森矩阵的特征向量,对应的特征值为0。我们的方法基于这个观察结果,即对齐SDF的梯度和海森矩阵可以更有效地控制梯度方向,从而更准确地反映形状的真实变化。
方法:我们提出了一种从无序点云中直接学习SDF的方法,无需法线信息。通过使梯度和海森矩阵对齐,我们可以更有效地控制梯度方向,确保梯度变化更准确地反映形状的真实变化。
效果:大量的实验结果表明,我们的方法能够准确地恢复底层形状,同时有效地抑制幽灵几何体的存在。
GNeSF: Generalizable Neural Semantic Fields
Hanlin Chen Chen Li Mengqi Guo Zhiwen Yan Gim Hee Lee
研究问题:现有的3D场景分割方法需要昂贵的每场景优化,限制了其在推理过程中对新场景的泛化。
动机:为了解决这个问题,我们提出了一种基于隐式表示的可泛化的3D分割框架。
方法:我们的框架接受多视角图像特征和语义地图作为输入,而不是仅依赖空间信息,以避免过度拟合到特定场景的几何和语义信息。我们还提出了一种新的软投票机制,用于聚合来自不同视角的2D语义信息。
效果:实验结果表明,我们的方法在性能上与特定场景的方法相当,甚至在某些情况下超过了仅使用2D标注的强监督方法。
Type-to-Track: Retrieve Any Object via Prompt-based Tracking
Pha Nguyen Kha Gia Quach Kris M. Kitani Khoa Luu
研究问题:如何通过自然语言描述来跟踪视频中的对象。
动机:克服传统方法(依赖边界框或类别注释)的局限性。
方法:提出一种名为Type-to-Track的新范式,用户可以通过键入自然语言描述来跟踪视频中的对象。创建了一个新的数据集GroOT,包含各种类型的对象及其详细描述外观和动作的文本标题。开发了一种基于变换器的eMbed-ENcoDE-extRact框架(MENDER),使用三阶张量分解。
效果:在五个场景中的实验表明,MENDER方法在准确性和效率方面优于另一种两阶段设计,准确率提高14.7%,速度提高4倍。
One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization
Minghua Liu Chao Xu Haian Jin Linghao Chen Mukund Varma T Zexiang Xu Hao Su
研究问题:单图像3D重建是一个重要但具有挑战性的任务,需要对自然世界有广泛的了解。
动机:许多现有的方法通过在二维扩散模型的指导下优化神经辐射场来解决此问题,但存在优化时间长、3D结果不一致和几何形状差的问题。
方法:本文提出了一种新的方法,该方法接受任何对象的单个图像作为输入,并在单次前馈传递中生成完整的360度3D纹理网格。首先,对于输入视图,我们使用视图条件二维扩散模型Zero123生成多视图图像,然后尝试将它们提升到3D空间。由于传统的重建方法在多视图预测上存在不一致的问题,我们在基于SDF的可泛化神经表面重建方法的基础上构建了我们的3D重建模块,并提出了几个关键的训练策略来实现360度网格的重建。
效果:无需昂贵的优化,我们的方法在显著少于现有方法的时间内重建3D形状。此外,我们的方法更有利于更好的几何形状,产生更一致的3D结果,并更紧密地遵循输入图像。我们在合成数据和野外图像上评估我们的方法,并在网格质量和运行时方面展示了其优越性。此外,我们的方法可以通过与现成的文本到图像扩散模型集成,无缝支持文本到3D任务。
OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding
Minghua Liu Ruoxi Shi Kaiming Kuang Yinhao Zhu Xuanlin Li Shizhong Han Hong Cai Fatih Porikli Hao Su
研究问题:如何利用大规模文本、图像和点云数据学习多模态联合表示,以实现开放世界的3D形状理解。
动机:现有的多模态对比学习框架在处理大规模3D表示时存在困难,且对噪声文本描述的处理能力有限。
方法:OpenShape通过融合多个3D数据集扩大训练数据规模,提出自动过滤和丰富噪声文本描述的策略,以及优化3D主干网络的方法。同时,引入了一种新的困难负样本挖掘模块以提高训练效率。
效果:在零样本3D分类基准测试中,OpenShape表现出优越的能力,如在Objaverse-LVIS基准测试上实现了46.8%的零样本准确率,远高于现有方法的不到10%。在ModelNet40上,OpenShape实现了85.3%的准确率,比之前的零样本基线方法提高了20%,与一些全监督方法相当。此外,OpenShape学习的嵌入能够编码广泛的视觉和语义概念,并促进精细的文本-3D和图像-3D交互。
TransHP: Image Classification with Hierarchical Prompting
Wenhao Wang Yifan Sun Wei Li Yi Yang
研究问题:本文旨在探索一种层次提示机制,用于解决层次图像分类(HIC)任务。
动机:与现有的HIC方法不同,我们的层次提示是首次明确地将祖先类别信息作为有助于后代类别区分的标记提示注入模型中,这种模仿人类视觉识别的方式可能更有利于提高分类精度。
方法:我们将这种提示机制建模为一个带有层次提示的Transformer(TransHP)。TransHP包括三个步骤:1) 学习一组提示令牌来表示粗糙(祖先)类别;2) 在中间块实时预测输入图像的粗糙类别;3) 将预测到的粗糙类别的提示令牌注入到中间特征中。尽管TransHP对所有输入图像的参数都保持一致,但注入的粗糙类别提示条件会修改后续的特征提取过程,并鼓励动态关注后代类别之间的相对细微差异。
效果:大量实验表明,TransHP在准确性(例如,ViT-B/16在ImageNet上的分类准确率提高了+2.83%)、训练数据效率(例如,在只有10% ImageNet训练数据的情况下提高了+12.69%)和模型可解释性方面都有显著改进。此外,TransHP也优于先前的HIC方法,显示出了良好的层次信息利用能力。
Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives
Tom Monnier Jake Austin Angjoo Kanazawa Alexei A Efros Mathieu Aubry
研究问题:如何通过3D原始模型,从校准的图像集合中生成简单、紧凑且可操作的3D世界表示。
动机:许多方法都集中在恢复高保真度的3D场景上,而我们专注于将场景解析为由少量纹理化原始模型组成的中等级别的3D表示。
方法:我们将原始模型建模为纹理超级二次曲面网格,并从头开始优化其参数,使用图像渲染损失。
效果:我们的方法能够准确重建输入图像和可见的3D点,同时对未看到的物体区域进行非模式形状完成。在与现有技术的比较中,我们的方法表现出了强大的鲁棒性。
PrimDiffusion: Volumetric Primitives Diffusion for 3D Human Generation
Zhaoxi Chen Fangzhou Hong Haiyi Mei Guangcong Wang Lei Yang Ziwei Liu
研究问题:开发一种基于扩散的3D人体生成框架。
动机:设计3D人体扩散模型困难,因为3D表示的计算成本高且3D人体的关节拓扑复杂。
方法:直接在一组体积原语上进行去噪扩散过程,将人体模型为带有辐射和运动信息的小体积数量。这种体积原语表示结合了体积表示的容量和基于原语的渲染的效率。
效果:实验证明,PrimDiffusion在3D人体生成方面优于最先进的方法。与基于GAN的方法相比,我们的PrimDiffusion在完成去噪过程后,可以在$512\times512$的分辨率下实时渲染高质量的3D人体。我们还展示了该框架在无训练条件生成(如纹理转移和3D修复)方面的灵活性。
Weakly-Supervised Audio-Visual Segmentation
Shentong Mo Bhiksha Raj
研究问题:本文旨在解决音频-视觉分割任务,即预测视频中声音源的像素级掩码。
动机:以前的工作需要使用大量手动设计的架构和像素级准确的掩码作为监督,但这些掩码昂贵且并非在所有情况下都可用。
方法:本文提出了一种新的弱监督音频-视觉分割框架WS-AVS,该框架可以通过多尺度多实例对比学习来学习多尺度音频-视觉对齐以进行音频-视觉分割。
效果:在AVSBench上的大量实验表明,WS-AVS在单源和多源情况下的弱监督音频-视觉分割方面非常有效。
DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model
Xiuye Gu Yin Cui Jonathan Huang Abdullah Rashwan Xuan Yang Xingyi Zhou Golnaz Ghiasi Weicheng Kuo Huizhong Chen Liang-Chieh Chen David A Ross
研究问题:本文旨在解决全景、语义和实例分割任务之间的紧密关系,提出一种通用的多数据集多任务分割模型DaTaSeg。
动机:现有的分割模型无法充分利用不同数据集之间的知识共享,且对小数据集的性能提升有限。
方法:采用共享表示(用掩码提案和类别预测)对所有任务进行训练,针对不同任务采用不同的合并操作和后处理,利用弱监督并共享网络参数以实现跨数据集的知识共享。
效果:在ADE语义、COCO全景和Objects365检测数据集上进行训练,DaTaSeg在所有数据集上都取得了性能提升,特别是在小数据集上,实现了54.0 mIoU的ADE语义和53.5 PQ的COCO全景。同时,DaTaSeg还实现了在ADE全景和Objects365实例分割上的弱监督知识转移。实验表明,DaTaSeg能够随着训练数据集数量的增加而扩展,并通过直接转移实现开放词汇分割。
Autodecoding Latent 3D Diffusion Models
Evangelos Ntavelis Aliaksandr Siarohin Kyle Olszewski Chaoyang Wang Luc Van Gool Sergey Tulyakov
研究问题:扩散模型在文本到图像领域表现出色,但在3D生成领域的应用受限于目标领域数据的稀缺性。
动机:为了解决3D生成中数据稀缺的问题,本文提出了一种以3D自动编码器为核心的新方法。
方法:首先使用自动编码器学习潜在空间,然后在瓶颈上进行去噪过程以生成新的样本。同时,将目标数据集的属性嵌入潜在空间,然后解码为体积表示以渲染一致的外观和几何形状。
效果:实验结果表明,该方法在各种基准数据集和指标上优于最先进的替代方案,包括合成物体的多视图图像数据集、移动人物的真实野外视频以及静态对象的大规模真实视频数据集。
Emergent Correspondence from Image Diffusion
Luming Tang Menglin Jia Qianqian Wang Cheng Perng Phoo Bharath Hariharan
研究问题:如何在无需任何显式监督的情况下,通过图像扩散模型找到图像之间的对应关系。
动机:图像对应关系是计算机视觉的基本问题,而现有的方法需要大量的任务特定数据或注释进行微调或监督。
方法:提出一种名为DIFT的策略,从扩散网络中提取出隐含的知识作为图像特征,用于在真实图像之间建立对应关系。
效果:实验表明,DIFT无需额外的任务特定数据或注释的微调或监督,就能在识别语义、几何和时间对应关系上超越弱监督方法和现有的现成特征。特别是在语义对应关系上,DIFT的性能超过了DINO和OpenCLIP,并在SPair-71k基准测试中的9个类别上超越了最先进的监督方法。
Modeling Human Visual Motion Processing with Trainable Motion Energy Sensing and a Self-attention Network
Zitang Sun Yen-Ju Chen Yung-Hao Yang Shin'ya Nishida
研究问题:本文旨在建立一个图像计算模型,模拟人类对动态环境的感知和交互,以提取自然场景中的有意义的运动流。
动机:尽管在认知神经科学方面有广泛的研究,但目前还没有一个能够以与人类视觉处理一致的方式从自然场景中提取有意义运动流的图像计算模型。
方法:我们提出了一种将可训练的运动能量感知与循环自注意力网络相结合的两阶段方法,用于自适应的运动整合和分离。这种模型架构旨在捕捉生物视觉系统中运动感知的核心结构V1-MT的计算过程,同时为各种刺激提供有意义的运动流。
效果:实验结果表明,我们的模型在预测人类反应上优于基准测试,而最先进的CV模型则相反。虽然我们的模型在生理对应性上可能并不完全准确,但它提供了一个与人类视觉运动处理一致的计算架构。
OpenMask3D: Open-Vocabulary 3D Instance Segmentation
Ayça Takmaz Elisabetta Fedele Robert Sumner Marc Pollefeys Federico Tombari Francis Engelmann
研究问题:本文旨在解决当前3D实例分割方法只能识别预定义类别的问题,以及现有方法无法区分多个对象实例的问题。
动机:目前的3D实例分割方法通常只能识别训练数据集中预定义的封闭类别,这对于需要执行与各种物体相关的新颖开放词汇查询的现实世界应用有重要限制。
方法:本文提出了OpenMask3D,一种零射击法用于开放词汇3D实例分割。通过预测类无关的3D实例掩码,模型通过基于CLIP的图像嵌入的多视图融合聚合每个掩码的特征。
效果:实验和消融研究表明,OpenMask3D在ScanNet200和Replica上优于其他开放词汇方法,尤其是在长尾分布上。定性实验进一步展示了OpenMask3D根据描述几何、功能和材料的免费形式查询分割对象属性的能力。
Reading Relevant Feature from Global Representation Memory for Visual Object Tracking
Xinyu Zhou Pinxue Guo Lingyi Hong Jinglun Li Wei Zhang Weifeng Ge Wenqiang Zhang
研究问题:如何有效地利用参考特征进行视觉目标跟踪。
动机:由于视频的动态性,不同时间步长的不同搜索区域所需的参考历史信息也不一致,使用模板和内存中的所有特征可能导致冗余并影响跟踪性能。
方法:提出一种新的跟踪范式,包括相关性注意力机制和全局表示记忆,可以自适应地帮助搜索区域从参考特征中选择最相关的历叚信息。
效果:通过在五个具有挑战性的数据集上进行大量实验,验证了该方法的有效性,实现了71 FPS的竞争力能。
GMSF: Global Matching Scene Flow
Yushan Zhang Johan Edstedt Bastian Wandt Per-Erik Forssen Maria Magnusson Michael Felsberg
研究问题:本文旨在解决从点云中估计场景流的问题。
动机:现有的主导场景流估计方法需要复杂的多阶段细化,如粗到精或循环架构。
方法:提出一种显著更简单的单尺度一次性全局匹配方法来解决这个问题。通过混合局部-全局-交叉转换器架构分解特征提取步骤,以获得准确和鲁棒的特征表示。
效果:实验表明,所提出的全局匹配场景流(GMSF)在多个场景流估计基准上创造了新的最先进的性能。
Learning Neural Implicit through Volume Rendering with Attentive Depth Fusion Priors
Pengchong Hu Zhizhong Han
研究问题:目前的多视角图像三维重建方法在深度监督下的渲染视图中存在空洞的不完全深度和遮挡结构无法感知的问题,严重影响了通过体积渲染进行几何推理的准确性。
动机:为了解决这个问题,我们提出了一种从多视角RGBD图像中学习神经隐式表示的方法,通过带有注意力深度融合先验的体积渲染。
方法:我们的先验允许神经网络从所有可用的深度图像融合的截断符号距离函数(TSDF)中感知粗略的3D结构以进行渲染。TSDF使得我们可以访问一个深度图像上的孔洞缺失的深度和当前视图看不见的被遮挡部分。通过引入一种新的注意力机制,我们让神经网络直接使用带有推断占有率的深度融合先验作为学习的隐式函数。
效果:我们在广泛使用的合成和真实世界扫描基准测试上进行的评估表明,我们的方法优于最新的神经隐式方法。
ClusterFomer: Clustering As A Universal Visual Learner
James Chenhao Liang Yiming Cui Qifan Wang Tong Geng Wenguan Wang Dongfang Liu
研究问题:本文提出了一种基于聚类范式和Transformer的通用视觉模型ClusterFormer。
动机:现有的视觉模型在处理异构视觉任务时,性能和可解释性存在局限。
方法:ClusterFormer包含两个创新设计:1)递归交叉注意力聚类,它重新定义了Transformer中的交叉注意力机制,使聚类中心能够进行递归更新,增强表示学习能力;2)特征分派,使用更新后的聚类中心通过相似性指标重新分配图像特征,形成透明流程。
效果:实验结果表明,ClusterFormer优于各种已知的专业架构,在ImageNet-1K图像分类、MS COCO物体检测和实例分割、ADE20K语义分割以及COCO Panoptic全景分割等任务上取得了优秀表现。
Unified 3D Segmenter As Prototypical Classifiers
Zheyun Qin Cheng Han Qifan Wang Xiushan Nie Yilong Yin Xiankai Lu
研究问题:本文旨在解决点云分割任务,包括语义分割、实例分割和全景分割,通常通过设计特定网络架构来解决,这往往缺乏跨任务的灵活性,导致研究结果分散。
动机:现有的方法主要针对特定任务设计网络架构,缺乏灵活性和泛化性。因此,本文提出了一种原型为基础的模型ProtoSEG,将语义分割、实例分割和全景分割统一起来。
方法:该方法将这三个同类任务视为具有不同粒度级别的分类问题。利用Transformer架构提取点嵌入以优化原型类别距离,并动态学习类别原型以适应最终任务。
效果:实验结果表明,ProtoSEG在3D点云基准测试中优于同时期知名的专用架构,在S3DIS、ScanNet V2和SemanticKITTI上的语义分割mIoU分别为72.3%、76.4%和74.2%,在S3DIS和ScanNet V2上的实例分割mCov为66.8%,mAP为51.2%,在SemanticKITTI上的全景分割PQ为62.4%。验证了本方法的概念优势和算法有效性。代码和模型可在https://github.com/zyqin19/PROTOSEG获取。
Learning Motion Refinement for Unsupervised Face Animation
Jiale Tao Shuhang Gu Wen Li Lixin Duan
研究问题:本文旨在解决现有无监督人脸动画方法在捕捉精细面部运动时存在的局限性。
动机:现有的无监督人脸动画方法通常采用基于先验的全局运动模型,但在局部区域(如嘴唇和眼睛)的运动捕捉上存在局限,无法准确模拟精细的面部运动。
方法:本文提出了一种新的无监督人脸动画方法,同时学习全局和局部的面部运动。具体来说,利用局部仿射运动模型学习全局的粗糙面部运动,设计了一个新的运动细化模块来补偿局部仿射运动模型在模拟精细面部运动上的不足。运动细化是通过源图像和驱动图像的关键特征之间的密集相关性学习的。
效果:实验结果表明,该方法在广泛使用的基准测试中取得了优于现有最先进技术的结果。
Unsupervised Optical Flow Estimation with Dynamic Timing Representation for Spike Camera
Lujie Xia Ziluo Ding Rui Zhao Jiyuan Zhang Lei Ma Zhaofei Yu Tiejun Huang Ruiqin Xiong
研究问题:如何有效地从尖峰流数据中选择适当的长度以提取精确信息,是尖峰视觉任务的关键。
动机:为了解决这个问题,我们提出了一种动态时间表示法来处理尖峰流数据。
方法:基于多层架构,我们在时间维度上应用空洞卷积来提取多时标的特征,同时设计了层注意力机制来动态融合这些特征。此外,我们还提出了一种基于尖峰的无监督学习方法来估计光流,以打破对标记数据的依赖。
效果:实验表明,我们的方法可以在包括真实场景在内的不同高速场景中从尖峰流预测光流。例如,在PHM数据集上,与最好的尖峰基线SCFlow相比,我们的误差分别降低了15%和19%。
Online Map Vectorization for Autonomous Driving: A Rasterization Perspective
Gongjie Zhang Jiahao Lin Shuang Wu Yilin Song Zhipeng Luo Yang Xue Shijian Lu Zuoguan Wang
研究问题:如何提高地图矢量化的精度和敏感性,以更好地适应自动驾驶环境。
动机:目前的地图矢量化方法存在偏差,且评估指标对这种偏差的敏感度不足。
方法:将光栅化思想引入地图矢量化中,提出一种基于光栅化的评估指标和矢量化框架MapVR。MapVR通过微分光栅化处理矢量化输出,并对光栅化的高清地图进行精确的几何感知监督。
效果:实验证明,将光栅化引入地图矢量化能显著提升性能,且在推理过程中无需额外计算成本,有助于提高地图感知的准确性,推动更安全的自动驾驶。
Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP
Qihang Yu Ju He Xueqing Deng Xiaohui Shen Liang-Chieh Chen
研究问题:开放词汇分割是一项挑战性任务,需要在不同的环境中从开放的类别集合中对对象进行分割和识别。
动机:目前的处理方法通常采用两阶段框架来解决这个问题,其中输入首先通过掩码生成器,然后通过CLIP模型和预测的掩码一起处理。这种方法涉及多次从原始图像中提取特征,可能效果不佳且效率低下。相比之下,我们提出使用共享的冻结CLIP卷积骨干构建单阶段框架,这不仅大大简化了当前的两阶段流程,而且显著提高了准确性-成本权衡。
方法:我们构建了一个名为FC-CLIP的单阶段系统,该系统受益于以下观察结果:冻结的CLIP骨干保留了开放词汇分类的能力,也可以作为强大的掩码生成器;卷积的CLIP比对比图像-文本预训练期间使用的输入分辨率更好地推广。令人惊讶的是,FC-CLIP在各种基准测试中取得了最先进的结果,同时运行速度相当快。
效果:具体来说,当仅在COCO全景数据上进行训练并以零射击方式进行测试时,FC-CLIP在ADE20K上实现了26.8 PQ、16.8 AP和34.1 mIoU,在Mapillary Vistas上实现了18.2 PQ、27.9 mIoU,在Cityscapes上实现了44.0 PQ、26.8 AP、56.2 mIoU,在同一设置下超过了先前的艺术+4.2 PQ、+2.4 AP、+4.2 mIoU在ADE20K上,+4.0 PQ在Mapillary Vistas上和+20.1 PQ在Cityscapes上。此外,FC-CLIP的训练和测试时间分别比相同的先前艺术快7.5倍和6.6倍,同时使用5.9倍更少的总模型参数。与此同时,FC-CLIP还在各种开放词汇语义分割数据集上设置了新的最先进的性能。代码和模型可在https://github.com/bytedance/fc-clip获取。
Self-supervised Object-Centric Learning for Videos
Görkay Aydemir Weidi Xie Fatma Guney
研究问题:本文旨在解决真实世界视频序列中多物体分割的问题。
动机:虽然无监督的多物体分割在合成序列上取得了显著的效果,但在更具挑战性的真实世界场景中,其性能并未得到提升。
方法:提出了一种全新的、完全无监督的方法,通过对象中心的学习框架将对象与每一帧上的插槽关联起来,并在帧之间建立联系。通过这些具有时间感知的插槽,训练目标是在高级语义特征空间中重构中间帧。
效果:该方法成功地在YouTube视频中对复杂和多样性类别的多个实例进行了分割。
GenS: Generalizable Neural Surface Reconstruction from Multi-View Images
Rui Peng Xiaodong Gu Luyang Tang Shihe Shen Fanqi Yu Ronggang Wang
研究问题:如何从无3D监督的多视角图像中重建表面?
动机:现有的方法需要对每个场景进行长时间的优化,并且无法推广到新的场景。
方法:提出了一种名为GenS的端到端可泛化神经表面重建模型,该模型在稀疏和密集环境中均表现良好。通过构建一个通用的多尺度体积来直接编码所有场景,避免了基于坐标的方法为每个场景训练单独的网络。
效果:与现有解决方案相比,该模型的表示能力更强,能够在保持全局平滑性的同时恢复高频细节。此外,引入了多尺度特征度量一致性,以在更具判别性的多尺度特征空间中强制实现多视角一致性,对光度一致性的失败具有鲁棒性。实验表明,该模型能够很好地推广到新的场景,并在流行的基准测试中优于现有的最先进方法,甚至优于使用真实深度监督的方法。
DiffComplete: Diffusion-based Generative 3D Shape Completion
Ruihang Chu Enze Xie Shentong Mo Zhenguo Li Matthias Nießner Chi-Wing Fu Jiaya Jia
研究问题:本文旨在提出一种新的基于扩散的方法,用于3D范围扫描的形状补全。
动机:与现有的确定性和概率性方法相比,我们试图在真实感、多模态和高保真度之间找到平衡。
方法:我们将形状补全视为一个有条件生成的任务,提出了DiffComplete模型。主要设计包括两个方面:一是设计了一个分层特征聚合机制,以空间一致的方式注入条件特征,以捕捉局部细节和条件输入的更广泛上下文,从而控制形状补全;二是在我们的模型中提出了一种占用感知的融合策略,使模型能够完成多个部分形状的补全,并提高了对输入条件的灵活性。
效果:DiffComplete在两个大型3D形状补全基准测试中取得了新的最先进的性能(例如,在$l_1$误差上降低了40%)。我们的补全形状不仅比确定性方法具有更真实的外观,而且与概率性替代方案相比,与地面真相的相似度高。此外,无论是在合成数据还是真实数据上,DiffComplete都能很好地泛化到完全未见过的类别的对象上,消除了在不同应用中重新训练模型的需要。
AiluRus: A Scalable ViT Framework for Dense Prediction
Jin Li Yaoming Wang XIAOPENG ZHANG Bowen Shi Dongsheng Jiang Chenglin Li Wenrui Dai Hongkai Xiong Qi Tian
研究问题:如何提高视觉转换器(ViTs)在处理长令牌序列和密集预测任务时的效率。
动机:由于其显著的性能,视觉转换器已成为处理视觉任务的主要架构。然而,当处理需要高分辨率输入的长令牌序列时,其复杂性会大大增加。
方法:提出一种自适应分辨率策略,根据图像中区域的重要性调整其分辨率。具体来说,在视觉转换器的中间层,使用提出的空间感知密度基聚类算法从令牌序列中选择锚点。与锚点相邻的令牌被合并以形成低分辨率区域,而其他令牌则独立保留为高分辨率。这种方法可以显著减少令牌的数量,后续层只需处理减少后的令牌序列以加速计算。
效果:该方法在三个不同的数据集上进行了评估,表现出良好的性能。例如,"Segmenter ViT-L"可以在不进行微调的情况下加速48%的帧数,同时保持性能。此外,该方法也可以用于加速微调过程。实验表明,我们可以在只降低0.09%性能的情况下节省52%的训练时间,同时加速2.46倍的帧数。
RangePerception: Taming LiDAR Range View for Efficient and Accurate 3D Object Detection
Yeqi BAI Ben Fei Youquan Liu Tao MA Yuenan Hou Botian Shi Yikang LI
研究问题:如何提高基于LiDAR的3D检测方法的性能,同时保持其效率。
动机:目前的基于鸟瞰图(BEV)和范围视图(RV)的3D检测方法存在性能和效率之间的矛盾。
方法:本文提出了一种名为RangePerception的高效准确的RV-based 3D物体检测框架。通过仔细分析,确定了两个阻碍现有RV-based方法性能的关键挑战,并针对这两个挑战提出了两个新的算法,即Range Aware Kernel (RAK)和Vision Restoration Module (VRM)。
效果:实验结果表明,RangePerception在Waymo Open Dataset上的平均L1/L2 AP比之前最先进的RV-based方法RangeDet高出3.25/4.18,并且首次作为RV-based 3D检测方法,其平均AP略优于著名的BEV-based方法CenterPoint,而其推理速度是CenterPoint的1.3倍。
NAP: Neural 3D Articulated Object Prior
Jiahui Lei Congyue Deng Bokui Shen Leonidas Guibas Kostas Daniilidis
研究问题:本文旨在提出首个3D深度生成模型——神经3D关节对象先验(NAP),用于合成3D关节对象模型。
动机:尽管对生成3D静态物体、组合或场景的研究广泛,但几乎没有方法能够捕捉到关节对象——人类和机器人交互的常见物体类别——的分布。
方法:我们首先设计了一种新的关节树/图参数化方法,然后在这个表示上应用了一种扩散去噪概率模型,通过从随机完全图中去噪来生成关节对象。为了同时捕捉几何形状和运动结构(它们的分布会相互影响),我们设计了一个图形去噪网络来学习反向扩散过程。
效果:实验证明,我们在关节对象生成方面表现出色,并在条件生成任务中应用,包括Part2Motion、PartNet-Imagination、Motion2Part和GAPart2Object。
Segment Everything Everywhere All at Once
Xueyan Zou Jianwei Yang Hao Zhang Feng Li Linjie Li Jianfeng Wang Lijuan Wang Jianfeng Gao Yong Jae Lee
研究问题:如何开发一种可推广和交互式的模型,用于一次性在图像中分割所有内容。
动机:现有的图像分割模型需要针对每种任务进行特定设计,缺乏通用性和交互性。
方法:提出SEEM模型,通过引入新的视觉提示来统一不同的空间查询,并学习文本和视觉提示之间的联合视觉语义空间,使模型能够动态组合两种类型的提示来完成各种分割任务。此外,还引入了可学习的内存提示以保留分割历史记录。
效果:实验结果表明,SEEM模型能够在一个统一的表示空间中学习和组合不同类型的提示,从而有效地完成各种分割任务,并在最少的监督下实现竞争性能。
Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and Motion Estimation
Jia-Xing Zhong Ta-Ying Cheng Yuhang He Kai Lu Kaichen Zhou Andrew Markham Niki Trigoni
研究问题:如何实现对刚性分割和运动估计的通用方法,以理解关节对象和移动场景的3D信息。
动机:分割和运动估计之间存在密切的关系,我们提出了一种无监督的方式来解决这个问题。
方法:我们设计了一个SE(3)等变架构和一个训练策略。该架构由两个相互连接的轻量级头部组成,这些头部使用点级别的不变特征预测分割掩码,并从SE(3)等变特征中估计运动,而无需类别信息。我们的训练策略是统一的,可以在线实施,通过利用场景流、分割掩码和刚体变换之间的关系来联合优化预测的分割和运动。
效果:我们在四个数据集上进行实验,结果显示我们的方法在模型性能和计算效率上都表现出色,参数量为0.25M,运算量为0.92G FLOPs。据我们所知,这是首个针对动态点云中的类别无关部分级别的SE(3)等变的研究成果。
Semantic Image Synthesis with Unconditional Generator
JungWoo Chae Hyunin Cho Sooyeon Go Kyungmook Choi Youngjung Uh
研究问题:如何利用用户指定的语义蒙版在预训练的无条件生成器上进行精细的空间控制,以生成逼真的图像。
动机:目前的语义图像合成方法需要对训练图像进行昂贵的像素级标注,而操作预训练无条件生成器(如StyleGAN)中的中间特征图则可以在没有繁重标注的情况下实现粗略的空间控制。
方法:本文提出了一种新的方法,通过一个语义映射器将用户指定的指导蒙版转换为代理蒙版,然后通过基于交叉注意力机制的重排网络使代理蒙版影响生成的图像。代理蒙版是对生成器中中间特征图的简单聚类。语义映射器和重排网络易于训练(不到半小时)。
效果:该方法对于许多任务都很有用,包括语义图像合成、真实图像的空间编辑以及未对齐的局部移植等。此外,它还可以广泛应用于各种数据集,如人脸、动物脸和教堂等。
Non-Rigid Shape Registration via Deep Functional Maps Prior
Puhua Jiang Mingze Sun Ruqi Huang
研究问题:本文旨在提出一种无需对应监督的基于学习的非刚性形状注册框架。
动机:传统的形状注册技术通常依赖于由外部接近性引起的对应关系,因此在存在大的固有形变时可能会失败。
方法:我们的方法将源网格变形到目标点云,由从深度功能映射(DFM)学习的高维嵌入引发的对应关系进行引导。特别是,对应关系会根据中间注册动态更新并经过一致性先验过滤,显著增强了整个流程的稳定性。
效果:实验结果表明,即使只有几十个有限变化的培训形状,我们的流程在几个非刚性点云匹配基准上实现了最先进的结果,同时为经历显著外在和内在形变的未见过的挑战性形状对提供了高质量的对应关系。
Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo Labeling and Multi-scale Feature Grouping
Chunming He Kai Li Yachao Zhang Guoxia Xu Longxiang Tang Yulun Zhang Zhenhua Guo Xiu Li
研究问题:本文旨在解决利用稀疏标注数据训练模型时,难以区分与背景相似度高的隐蔽物体的问题。
动机:由于隐蔽物体与背景的相似性高以及稀疏标注的训练数据只能提供弱监督,使得对混合在环境中的物体进行准确分割仍然是一个挑战。
方法:提出了一种新的弱监督隐蔽物体分割(WSCOS)方法。设计了一个多尺度特征分组模块,通过将相似特征分组并聚合,增强分割连贯性,帮助获取单目标和多目标图像的完整分割结果。同时,利用新提出的视觉基础模型“Segment Anything Model(SAM)”,使用提供的稀疏标注作为提示生成分割掩模来训练模型。
效果:通过一系列策略如多增强结果集成、基于熵的像素级加权和基于熵的图像级选择等,减轻了低质量分割掩模的影响,为分割模型提供了更可靠的监督。实验证明,该方法在各种弱监督隐蔽物体分割任务上取得了最先进的性能。
CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection
Yang Cao Yihan Zeng Hang Xu Dan Xu
研究问题:本文旨在解决开放词汇3D物体检测(OV-3DDet)中的两个基本问题,即定位和分类新的对象。
动机:在有限的基类条件下,同时解决定位和分类新对象的问题,目前尚未在文献中得到充分探索。
方法:通过统一的框架,提出了一种有效的3D新对象发现策略,利用3D框几何先验和2D语义开放词汇先验生成新对象的伪框标签。为了对新的对象框进行分类,进一步开发了一种基于发现的新颖盒子的跨模态对齐模块,以对齐点云和图像/文本模态之间的特征空间。
效果:在SUN-RGBD和ScanNet两个具有挑战性的数据集上进行的大量实验表明了该方法的有效性,并在性能最好的替代方法上取得了80%的mAP显著提高。
DynPoint: Dynamic Neural Point For View Synthesis
Kaichen Zhou Jia-Xing Zhong Sangyun Shin Kai Lu Yiyuan Yang Andrew Markham Niki Trigoni
研究问题:现有的单目视频视图合成算法在处理无控制或长场景时面临困难,且需要针对每个新场景进行大量训练。
动机:为了解决这些问题,我们提出了DynPoint,一种用于快速合成无约束单目视频新视图的算法。
方法:DynPoint不将整个场景信息编码为潜在表示,而是专注于预测相邻帧之间的明确3D对应关系以实现信息聚合。具体来说,这种对应关系是通过估计跨帧的一致深度和场景流信息来实现的。然后,通过构建分层神经点云,利用获得的对应关系将来自多个参考帧的信息聚合到目标帧。
效果:实验结果表明,我们的方法可以大大加速训练时间——通常是一个数量级——同时产生与先前方法相当的结果。此外,我们的方法在处理长时间视频时表现出强大的鲁棒性,无需学习视频内容的规范表示。
Enhancing Motion Deblurring in High-Speed Scenes with Spike Streams
Shiyan Chen Jiyuan Zhang Yajing Zheng Tiejun Huang Zhaofei Yu
研究问题:传统相机在高速场景中由于曝光时间长而产生运动模糊,现有的基于帧的去模糊算法在严重模糊的图像中提取有用的运动线索方面面临挑战。
动机:一种新兴的生物启发式视觉传感器——尖峰相机,由于其新颖的采样机制,在保持丰富的空间细节的同时实现了极高的帧率,但其典型的二进制尖峰流相对分辨率较低,缺乏颜色信息,不利于人类视觉。
方法:提出了一种新的方法,将两个模态从两个分支进行整合,利用尖峰流作为辅助视觉线索,引导高速运动场景中的去模糊。
效果:实验结果表明,该方法能有效恢复高度模糊场景下的清晰RGB图像,并在多种设置下优于最先进的去模糊算法。
PyNeRF: Pyramidal Neural Radiance Fields
Haithem Turki Michael Zollhöfer Christian Richardt Deva Ramanan
研究问题:如何改进神经辐射场(NeRFs)的空间网格表示,以解决不同相机距离下的场景重建中的尺度问题。
动机:目前的神经辐射场加速方法如Mip-NeRF等虽然解决了尺度问题,但需要使用与网格方法不兼容的位置编码,且训练速度较慢。
方法:提出一种简单的修改方法,通过在不同空间网格分辨率上训练模型头部,并在渲染时使用较粗的网格来渲染覆盖较大体积的样本。
效果:该方法可以很容易地应用于现有的加速NeRF方法,显著提高渲染质量(在合成和无界真实世界场景中,错误率降低了20-90%),同时性能开销最小(每个模型头部的评估速度很快)。与Mip-NeRF相比,该方法在训练速度上提高了60倍,同时错误率降低了20%。
Generalizable One-shot 3D Neural Head Avatar
Xueting Li Shalini De Mello Sifei Liu Koki Nagano Umar Iqbal Jan Kautz
研究问题:如何从单视图肖像图像重建和动画化3D头部化身。
动机:现有的方法要么需要针对特定个体进行多张图片的耗时优化,要么在面部区域以外的复杂外观细节合成上存在困难。
方法:提出一种框架,不仅基于单视图图像泛化到未见过的个体,无需进行人物特异性优化,还能捕捉面部内外的特征细节(如发型、配饰等)。核心方法是三个分支,分别生成代表源图像的粗略3D几何、详细外观和目标图像表情的三个三角平面。通过将这三个三角平面的组合应用体积渲染并随后进行超分辨率模块处理,该方法产生所需身份、表情和姿势的高保真度图像。
效果:实验表明,所提出的方法在未见过的验证数据集上具有良好的泛化能力,在头部化身重建和动画方面大幅超越最先进的基线方法。
HeadSculpt: Crafting 3D Head Avatars with Text
Xiao Han Yukang Cao Kai Han Xiatian Zhu Jiankang Deng Yi-Zhe Song Tao Xiang Kwan-Yee K. Wong
研究问题:现有的文本引导3D生成方法在创建高保真3D头部头像时存在两个主要问题:一是过于依赖预训练的文本到图像扩散模型,缺乏必要的3D意识和头部先验知识,导致生成的头像可能存在不一致性和几何失真;二是在细粒度编辑方面表现不佳。
动机:为了解决上述问题,本文提出了一种名为HeadSculpt的通用粗到细流程,用于从文本提示中生成和编辑3D头部头像。
方法:首先,通过利用基于地标的控制和学习到的表示头部背面外观的文本嵌入,使扩散模型具备3D意识,从而实现3D一致的头部头像生成。其次,提出一种新的身份感知编辑得分蒸馏策略,使用高分辨率可微渲染技术优化纹理网格,实现在遵循编辑指令的同时保持身份特征。
效果:通过全面的实验和与现有方法的比较,展示了HeadSculpt在保真度和编辑能力方面的优越性。
Multi-modal Queried Object Detection in the Wild
Yifan Xu Mengdan Zhang Chaoyou Fu Peixian Chen Xiaoshan Yang Ke Li Changsheng Xu
研究问题:如何利用文本描述和视觉范例进行多模态查询物体检测。
动机:现有的语言查询物体检测器无法处理开放词汇类别和各种粒度的检测任务。
方法:提出MQ-Det模型,将视觉查询融入已有的语言查询物体检测器中,通过添加一个可扩展感知器模块来增强类别文本的类级视觉信息。同时,提出一种视觉条件的语言掩码预测策略来解决冻结检测器带来的学习惯性问题。
效果:实验结果表明,多模态查询极大地提高了开放世界检测的性能。例如,MQ-Det在LVIS基准测试上通过多模态查询将最先进的开放集检测器GLIP的AP提高了+7.8%,并且在13个少样本下游任务上平均提高了+6.3%的AP,而仅仅增加了3%的时间需求。
PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds
Hao Yang Haiyang Wang Di Dai Liwei Wang
研究问题:现有的点云预训练方法忽视了点云的不完整性问题,即LiDAR只能捕获到部分点,导致训练阶段存在模糊性。同时,图像可以提供更全面的信息和丰富的语义,有助于解决点云的不完整性问题,但将图像融入点云预训练中会面临遮挡等问题。
动机:为了解决这些问题,本文提出了一种新的图像辅助的点云预训练框架PRED,该框架以遮挡感知的方式对户外点云进行预训练。
方法:PRED的主要组成部分是条件语义渲染的鸟瞰图(BEV)特征图,通过神经渲染利用图像的语义进行监督。此外,我们还通过高比例(95%)的点状掩码增强了模型的性能。
效果:实验结果表明,PRED在各种大规模数据集上的3D感知任务上优于先前的点云预训练方法,取得了显著的改进。
Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models
Yichao Cao Qingfei Tang Xiu Su Song Chen Shan You Xiaobo Lu Chang Xu
研究问题:本文旨在解决开放世界中的通用人与物体交互识别问题。
动机:真实世界中的人与物体交互复杂多样,给注释和识别带来了重大挑战,特别是在开放世界的环境下进行交互识别。
方法:通过使用视觉语言基础模型和大型语言模型,提出了一种被称为UniHOI的方法。该方法包括一个由高阶关系提取引导的解码器(HOPD),用于将基础模型中的高级关系表示与图像中的不同HO对关联起来,并利用大型语言模型(如GPT)进行交互解释,以生成更丰富的语言理解。
效果:在监督和零样本设置下,UniHOI的有效架构设计和学习方法有效地释放了视觉语言基础模型和大型语言模型的潜力,使其在所有现有方法中以显著的优势超越。
Focus on Query: Adversarial Mining Transformer for Few-Shot Segmentation
Yuan Wang Naisong Luo Tianzhu Zhang
研究问题:如何在只有少量标注样本的情况下对新类别的对象进行分割。
动机:现有的少数镜头分割(FSS)方法主要关注支持信息的探索,而对关键查询分支的挖掘关注不足。
方法:提出一种新的以查询为中心的FSS模型——对抗性挖掘变压器(AMFormer)。该模型通过粗糙的支持指导甚至弱支持标签,实现准确查询图像分割。设计了一个对象挖掘变压器(G)和一个细节挖掘变压器(D),并通过对抗过程训练G和D。
效果:在常用的Pascal-5i和COCO-20i基准测试中取得了最先进的结果,并在查询中心的范式下,即使使用弱支持标签也能达到满意的性能。
Shape Non-rigid Kinematics (SNK): A Zero-Shot Method for Non-Rigid Shape Matching via Unsupervised Functional Map Regularized Reconstruction
Souhaib Attaiki Maks Ovsjanikov
研究问题:本文旨在提出一种新的非刚性形状匹配方法,即形状非刚性运动学(SNK),以消除对大量训练或真实数据的需求。
动机:传统的非刚性形状匹配方法需要大量的训练或真实数据,而新提出的SNK方法通过预测和转换一个无监督的功能图来简化形状匹配过程,同时保持准确性。
方法:SNK采用编码器-解码器架构的重建策略,将源形状变形以紧密匹配目标形状。在此过程中,预测并转换为点对点的映射图,作为重建的监管机制。为了帮助训练,设计了一个新的解码器架构,生成平滑、真实的变形。
效果:实验结果表明,SNK在传统基准测试中表现出竞争力,简化了形状匹配过程而不牺牲准确性。
Segment Anything in High Quality
Lei Ke Mingqiao Ye Martin Danelljan Yifan liu Yu-Wing Tai Chi-Keung Tang Fisher Yu
研究问题:现有的大规模分割模型在处理复杂结构的对象时,其遮罩预测质量往往不足。
动机:为了解决这一问题,我们提出了HQ-SAM模型,旨在提高遮罩预测的质量,同时保持原模型的可提示设计、效率和零样本泛化能力。
方法:我们在SAM模型中引入了一个可学习的高质量输出标记,用于预测高质量的遮罩。并且,我们将这个标记与早期和最终的ViT特征进行融合,以提高遮罩的细节。
效果:通过在多个下游任务的10个不同分割数据集上进行测试,我们发现HQ-SAM模型在8个零样本转移协议评估中表现出色。
Echoes Beyond Points: Unleashing the Power of Raw Radar Data in Multi-modality Fusion
Yang Liu Feng Wang Naiyan Wang Zhaoxiang Zhang
研究问题:如何提高雷达在自动驾驶系统中的检测性能。
动机:由于雷达具有低成本和对恶劣天气的良好适应性,因此在自动驾驶系统中广泛使用。然而,由于其点云稀疏且不准确,雷达的检测性能通常较差。
方法:本文提出了一种名为EchoFusion的新方法,该方法跳过现有的雷达信号处理流程,直接将雷达原始数据与其他传感器的数据进行融合。具体来说,我们首先生成鸟瞰图查询,然后从雷达中提取相应的频谱特征,与其他传感器进行融合。
效果:通过这种方法,我们的方法能够利用雷达回波丰富且无损的距离和速度线索以及图像丰富的语义线索,使我们的方法在RADIal数据集上超越了所有现有方法,并接近激光雷达的性能。
3D-Aware Visual Question Answering about Parts, Poses and Occlusions
Xingrui Wang Wufei Ma Zhuowan Li Adam Kortylewski Alan Yuille
研究问题:现有的视觉问答(VQA)数据集和模型主要关注二维场景的推理,但需要理解三维视觉场景的结构以支持导航或操作等任务。
动机:为了解决这一问题,本文提出了3D-aware VQA任务,该任务关注于对视觉场景的三维结构进行组合推理的挑战性问题。
方法:从数据集和模型两个角度来解决3D-aware VQA问题。首先引入Super-CLEVR-3D,这是一个关于物体部分、三维姿态和遮挡的组合推理数据集;其次提出PO3D-VQA模型,该模型结合了概率神经网络符号程序执行和具有物体三维生成表示的深度神经网络的强大思想,用于强大的视觉识别。
效果:实验结果表明,PO3D-VQA模型显著优于现有方法,但与二维VQA基准仍存在显著性能差距,表明3D-aware VQA仍是一个重要的开放研究领域。
Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with Foundation Models
Zhimin Chen Longlong Jing Yingwei Li Bing Li
研究问题:如何利用基础模型来丰富3D场景表示学习,以解决领域差距的问题。
动机:尽管基础模型在2D和语言任务上取得了显著的成果,但在3D场景表示学习方面的潜力尚未得到充分利用,主要原因是存在领域差距。
方法:提出了一种名为Bridge3D的创新方法,通过使用基础模型提取的特征、语义掩码和描述进行预训练3D模型。具体来说,该方法使用基础模型的语义掩码指导掩码自动编码器的掩蔽和重建过程,使模型能更专注于前景表示。此外,还通过图像描述基础模型弥合了3D-文本的差距,从而促进了场景级的知识蒸馏。
效果:Bridge3D的方法在3D对象检测和语义分割任务上的表现大大超过了现有最先进的方法。例如,在ScanNet数据集上,Bridge3D将基线提高了6.3%。
Hierarchical Open-vocabulary Universal Image Segmentation
Xudong Wang Shufan Li Konstantinos Kallidromitis Yusuke Kato Kazuki Kozuka Trevor Darrell
研究问题:本文旨在解决开放词汇图像分割中的语义级别、实例级别和部分级别的任务。
动机:现有的方法通常避开了分割模糊性,并将其视为外部因素,而我们的方法则主动将包含不同语义级别的分层表示纳入学习过程。
方法:我们提出了一种解耦的文本-图像融合机制和代表学习模块,用于处理“事物”和“材料”。此外,我们还系统地检查了这些类型类别之间在文本和视觉特征上的差异。
效果:我们的模型HIPIE在统一的框架内解决了分层、开放词汇和通用分割任务。在ADE20K、COCO、Pascal-VOC Part和RefCOCO/RefCOCOg等多样化数据集上进行基准测试,HIPIE在各种图像理解水平上实现了最先进的结果,包括语义级别(如语义分割)、实例级别(如全景/参考分割和目标检测)以及部分级别(如部分/子部分分割)任务。
ISP: Multi-Layered Garment Draping with Implicit Sewing Patterns
Ren Li Benoît Guillard Pascal Fua
研究问题:现有的人体模型服装建模方法无法处理日常穿着中常见的多层服装,或者仅限于T型姿势。
动机:为了解决这些问题,本文提出了一种参数化服装表示模型。
方法:该模型将每件服装分解为独立的二维面板,通过二维到三维的映射来定义其形状。二维参数化可以方便地检测潜在碰撞,而三维参数化则能有效处理复杂形状。
效果:实验证明,这种组合比纯隐式表面表示更快,重建质量更高,并且由于其可微分性,可以从图像中恢复多层服装。此外,它还支持通过修改单个二维面板快速编辑服装的形状和纹理。
STXD: Structural and Temporal Cross-Modal Distillation for Multi-View 3D Object Detection
Sujin Jang Dae Ung Jo Sung Ju Hwang Dongwook Lee Daehyun Ji
研究问题:如何从多视角图像进行3D物体检测,以替代昂贵的基于激光雷达的探测器。
动机:由于缺乏精确的空间线索,从多视角图像进行3D物体检测是一项极具挑战性的任务。
方法:提出了一种新的结构与时间跨模态知识蒸馏(STXD)框架,通过在特征组件中减少冗余并最大化其相似性,以及通过编码特征在一系列帧中的相似性映射来有效转移时间知识,进一步改善了知识蒸馏的质量。
效果:实验证明,STXD显著提高了基本学生探测器在nuScenes测试数据集上的NDS和mAP,提高了2.8%~4.5%。
RevColV2: Exploring Disentangled Representations in Masked Image Modeling
Qi Han Yuxuan Cai Xiangyu Zhang
研究问题:现有的遮蔽图像建模(MIM)方法在预训练和微调阶段存在表示不一致的问题,可能影响下游任务的性能。
动机:为了解决这一问题,本文提出了一种新的架构RevColV2,通过在预训练和微调阶段都保留完整的自动编码器架构。
方法:RevColV2的主要部分包括自底向上的列和自顶向下的列,其间的信息可逆传播并逐渐解耦。这种设计使得网络能在MIM预训练阶段保持低层次和语义信息的解耦。
效果:实验结果表明,具有解耦特性的基础模型在多个下游视觉任务上都能取得有竞争力的性能,如图像分类、语义分割和目标检测。例如,经过ImageNet-22K数据集的中间层微调后,RevColV2-L在ImageNet-1K分类上达到了88.4%的Top-1准确率,在ADE20K语义分割上达到了58.6 mIoU。使用额外的教师和大规模数据集,RevColv2-L在COCO检测上达到了62.1 APbox,在ADE20K语义分割上达到了60.4 mIoU。
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
Shentong Mo Enze Xie Ruihang Chu Lanqing HONG Matthias Nießner Zhenguo Li
研究问题:现有的3D扩散方法主要采用U-Net架构,尚不清楚Transformer架构在3D形状生成中是否同样有效。
动机:为了填补这一空白,我们提出了一种新的用于3D形状生成的扩散Transformer,名为DiT-3D,它可以直接对体素化的点云进行去噪处理。
方法:DiT-3D采用了DiT的设计哲学,但通过引入3D位置和片嵌入来聚合来自体素化点云的输入,以减少3D形状生成中自注意力计算的计算成本。
效果:实验结果表明,DiT-3D在ShapeNet数据集上实现了高保真度和多样化的3D点云生成方面的最先进的性能。
Unsupervised Polychromatic Neural Representation for CT Metal Artifact Reduction
Qing Wu Lixuan Chen Ce Wang Hongjiang Wei S Kevin Zhou Jingyi Yu Yuyao Zhang
研究问题:本文旨在解决金属植入物存在的人体CT成像难题。
动机:CT金属伪影是由于X射线能谱的不同能量级别下金属的衰减系数剧烈变化,导致CT测量中的非线性金属效应。从非线性逆问题的角度解决金属影响下的CT图像恢复问题。
方法:提出了一种新颖的多色神经网络表示(Polyner)方法。首先,推导出一个多色前向模型,以准确模拟非线性CT采集过程。然后,将我们的前向模型融入到隐式神经网络表示中完成重建。最后,采用正则化器在保持不同能量级别下CT图像物理属性的同时有效约束解空间。
效果:实验结果表明,Polyner在领域内数据集上取得了与监督方法相当甚至更好的性能,同时在领域外数据集上表现出显著的性能提升。据我们所知,Polyner是第一个超越监督对应方法的无监督MAR方法。
Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection
Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li
研究问题:如何通过知识转移提高仅依赖摄像头的3D物体检测器的准确性。
动机:LiDAR和多模态专家模型与仅依赖摄像头的初级模型之间存在领域差距和时间融合不兼容的问题,阻碍了基于蒸馏的增强效果。
方法:提出VCD框架,包括易于初级用户的多模态专家和有利于时间融合的蒸馏监督。多模态专家VCD-E采用与仅依赖摄像头的初级模型相同的结构以减轻特征差异,并利用激光雷达输入作为深度先验重建3D场景,性能与其他异构多模态专家相当。此外,引入细粒度的轨迹基蒸馏模块,目的是单独纠正场景中每个对象的运动不匹配。
效果:改进后的仅依赖摄像头的初级模型VCD-A在nuScenes上取得了新的最先进的NDS分数63.1%。
LEPARD: Learning Explicit Part Discovery for 3D Articulated Shape Reconstruction
Di Liu Anastasis Stathopoulos Qilong Zhangli Yunhe Gao Dimitris N. Metaxas
研究问题:如何从野外的单一图像中重建动物的三维关节形状。
动机:现有的方法在处理动物的三维关节形状时,往往受到姿势变化的影响,且整体形状复杂。因此,提出一种基于部分的三维形状重建方法。
方法:LEPARD框架通过学习发现具有语义意义的三维部分,并以部分为基础重建三维形状。这些部分被明确表示为参数化的原始曲面,具有全局和局部的3D变形,以匹配图像证据。并提出一种受运动学启发的优化方法,根据2D证据指导每个原始变形的转换。
效果:实验结果表明,LEPARD在三维动物形状重建方面优于现有方法,不仅能提高整体重建性能,还能发现具有语义意义和一致性的部分。
Compact Neural Volumetric Video Representations with Dynamic Codebooks
Haoyu Guo Sida Peng Yunzhi Yan Linzhan Mou Yujun Shen Hujun Bao Xiaowei Zhou
研究问题:如何以低存储成本表示高保真体视视频。
动机:现有的基于特征网格的方法在从输入的2D图像中快速学习隐式神经表示方面表现出优越的性能,但在建模动态场景时,这种显式的表示容易导致模型过大。
方法:提出一种新的神经表示方法——动态码本,通过合并相似特征进行模型压缩,并通过一组动态代码补偿可能降低的渲染质量。
效果:在NHR和DyNeRF数据集上的实验表明,该方法在实现更高的存储效率的同时,达到了最先进的渲染质量。
Hierarchical Adaptive Value Estimation for Multi-modal Visual Reinforcement Learning
Yangru Huang Peixi Peng Yifan Zhao Haoran Xu Mengyue Geng Yonghong Tian
研究问题:现有的多模态视觉强化学习方法在政策学习上可能会忽视每个模态的独特价值。
动机:为了解决这一问题,本文提出了一种局部模态定制值估计(LVE)范式,从值级别动态估计每个模态的贡献并调整其重要性权重。
方法:开发了一个任务上下文再融合过程,以实现特征和值级别的任务级重新平衡。形成了一个分层自适应值估计(HAVE)框架,自适应地协调各个模态的贡献以及它们的集体效能。
效果:通过使用CARLA基准测试,利用神经形态事件和深度数据,展示了HAVE的能力及其独特组件的有效性。
H2RBox-v2: Incorporating Symmetry for Boosting Horizontal Box Supervised Oriented Object Detection
Yi Yu Xue Yang Qingyun Li Yue Zhou Feipeng Da Junchi Yan
研究问题:如何利用弱监督检测器H2RBox从更易获取的水平框(HBox)中学习旋转框(RBox),以应对自动驾驶和遥感等领域对定向对象检测的快速增长需求。
动机:现有的定向对象检测方法需要大量的标注数据,而弱监督检测器H2RBox可以从水平框中学习旋转框,从而减少对标注数据的依赖。
方法:本文提出了H2RBox-v2,通过翻转和旋转一致性利用反射对称性,并使用类似于H2RBox的弱监督网络分支和一个从视觉对象的对称性中学习方向的新的自我监督分支。此外,还采用了一些实用技术来稳定和增强检测器,以应对周边问题如角度周期性。
效果:实验结果表明,H2RBox-v2是第一个具有对称感知的自我监督定向对象检测范式。与H2RBox相比,该方法对低质量标注和训练数据不足的敏感性较低。在多个数据集上,H2RBox-v2的性能与旋转标注训练的对应方法Rotated FCOS相当接近。
PolyDiffuse: Polygonal Shape Reconstruction via Guided Set Diffusion Models
Jiacheng Chen Ruizhi Deng Yasutaka Furukawa
研究问题:本文旨在解决结构化重建任务中,扩散模型面临的两个基本挑战:1)结构化几何是一个“集合”,其样本的N个元素有N!种不同但等价的表示方式,使得去噪过程高度模糊;2)重建任务只有一个解决方案,需要谨慎选择初始噪声,而生成任务则对初始噪声没有要求。
动机:将视觉传感器数据转化为多边形形状的结构化重建算法,通过条件化传感器数据进行生成过程。
方法:提出一种引导集扩散模型,其中1)前向扩散过程学习“引导网络”来控制噪声注入,使一个样本的一个表示与其其他排列变体保持不同,从而解决去噪模糊性问题;2)反向去噪过程根据传感器数据初始化和指导网络,将多边形形状作为条件生成过程进行重建。
效果:通过在标准基准上进行大量实验,证明PolyDiffuse显著提高了当前最先进的技术水平,并能够实现更广泛的应用。
DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions
Haochen Wang Junsong Fan Yuxi Wang Kaiyou Song Tong Wang Zhaoxiang Zhang
研究问题:视觉转换器对输入令牌的顺序不敏感,需要一种增强其位置感知的适当的自我监督预训练任务。
动机:为了解决这个问题,我们提出了一种新的预训练任务——DropPos,通过重建被丢弃的位置来提高模型的位置感知能力。
方法:首先随机丢弃大部分位置嵌入,然后模型仅根据视觉外观在可能的所有位置中为每个非重叠的补丁分类实际位置。为了增加任务难度,我们只保留一部分可见的补丁。同时,考虑到可能有视觉外观相似的不同补丁,我们提出了位置平滑和注意力重建策略来放宽这个分类问题。
效果:实验结果表明,DropPos表现出强大的能力,不仅优于有监督的预训练,而且在一系列下游基准测试中与最先进的自我监督方法相比也取得了竞争性的结果。这表明像DropPos这样明确鼓励空间推理能力的任务确实有助于提高视觉转换器的位置感知能力。
DAC-DETR: Divide the Attention Layers and Conquer
Zhengdong Hu Yifan Sun Jingdong Wang Yi Yang
研究问题:DETR模型中,交叉注意力和自我注意力对对象查询的影响存在矛盾,影响了训练效果。
动机:为了提高DETR的训练效率,需要解决交叉注意力和自我注意力对对象查询的相反影响。
方法:提出一种Divide-And-Conquer DETR(DAC-DETR)方法,将交叉注意力从矛盾中分离出来,通过辅助解码器专注于学习交叉注意力层。
效果:实验表明,DAC-DETR在MS-COCO数据集上比流行的DETRs有显著改进,例如,在12个epoch的训练方案下,DAC-DETR将变形DETR(ResNet-50)提高了+3.4 AP,并实现了基于一些流行方法(如DINO和IoU相关损失)的50.9(ResNet-50)/ 58.1 AP(Swin-Large)。
IDRNet: Intervention-Driven Relation Network for Semantic Segmentation
Zhenchao Jin Xiaowei Hu Lingting Zhu Luchuan Song Li Yuan Lequan Yu
研究问题:本文旨在解决现有上下文建模模式中由于依赖大量预设先验而导致的上下文信息聚合不足或无效的问题。
动机:现有的上下文建模模式,如多尺度驱动和相似性驱动的上下文方案,虽然取得了令人印象深刻的结果,但往往因为依赖大量的预设先验而无法有效聚合上下文信息。
方法:本文提出了一种新的干预驱动的关系网络(IDRNet),利用删除诊断程序来指导不同像素之间的上下文关系建模。具体来说,我们首先通过伪标签的引导将像素级表示分组为语义级表示,并通过特征增强模块进一步提高分组表示的区分度。然后,进行删除诊断程序以模型化这些语义级表示之间的关系,并利用提取的关系指导语义级表示相互交互。最后,使用交互的表示来增强原始的像素级表示以进行最终预测。
效果:广泛的实验验证了IDRNet的有效性,无论是在数量上还是在质量上。值得注意的是,我们的干预驱动的上下文方案为最先进的分割框架带来了一致的性能改进,并在流行的基准数据集上取得了有竞争力的结果,包括ADE20K、COCO-Stuff、PASCAL-Context、LIP和Cityscapes。
MonoUNI: A Unified Vehicle and Infrastructure-side Monocular 3D Object Detection Network with Sufficient Depth Clues
Jinrang Jia Zhenjia Li Yifeng Shi
研究问题:如何构建基于不同先验知识的自动驾驶中车辆和基础设施侧面的单目3D检测算法。
动机:由于传感器安装和焦距的多样性,研究人员面临着基于不同先验知识构建这两个主题的算法的挑战。
方法:本文提出了一个名为归一化深度的统一优化目标,考虑到俯仰角和焦距的多样性,实现了对两个侧面的3D检测问题的统一。同时,为了提高单目3D检测的准确性,开发了障碍物的三维归一化立方体深度来促进深度信息的学习。
效果:广泛的实验表明该方法的有效性。在不引入任何额外信息的情况下,该方法(命名为MonoUNI)在五个广泛使用的单目3D检测基准测试中实现了最先进的性能,包括用于基础设施侧面的Rope3D和DAIR-V2X-I,用于车辆侧面的KITTI和Waymo,以及用于跨数据集评估的nuScenes。
Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation
Chaofan Ma Yuhuan Yang Chen Ju Fei Zhang Ya Zhang Yanfeng Wang
研究问题:开放词汇语义分割任务需要对新的物体类别进行分割,但现有方法存在在实际应用中的问题,如对低质量的文本类别名的假设。
动机:现有的预训练语言模型在处理开放词汇语义分割任务时,往往基于一些不切实际的假设,例如新文本类别会准确且完整地提供,并且在预训练期间存在于词库中。然而,当遇到模糊不清或不完整的名称、不存在于预训练词库中的新词以及用户难以描述的类别时,这些假设往往无法成立。
方法:本文提出了一种新颖的属性分解-聚合框架,灵感来源于人类理解新概念的认知过程。具体来说,在分解阶段,我们将类别名分解为多样化的属性描述,从多个角度补充语义上下文。设计了两种属性构建策略:对于常见的类别使用大型语言模型,对于人类创造的类别则进行人工标注。在聚合阶段,我们将多样化的属性聚合成一个综合的全局描述,形成一个能够区分目标对象和其他对象的判别分类器。进一步提出了一种层次聚合架构,利用精心设计的聚类模块实现多级聚合。最终结果通过计算聚合属性和图像嵌入之间的相似性得到。
效果:为了评估效果,我们在三个数据集上进行了属性描述的注释,并进行了广泛的实验和消融研究。结果显示出属性分解-聚合的优越性能。
How2comm: Communication-Efficient and Collaboration-Pragmatic Multi-Agent Perception
Dingkang Yang Kun Yang Yuzheng Wang Jing Liu Zhi Xu Rongbin Yin Peng Zhai Lihua Zhang
研究问题:多智能体协作感知在驾驶场景中作为新兴应用受到广泛关注,但感知过程中的多种噪声(如通信冗余、传输延迟和协作异构性)仍存在挑战。
动机:为了解决这些问题,我们提出了一个名为How2comm的协作感知框架,旨在在感知性能和通信带宽之间找到平衡。
方法:我们的创新点有三个。首先,我们设计了一个相互信息感知的通信机制,以最大限度地维持合作者共享的有信息量的特征。其次,我们提出了一种流动引导的延迟补偿策略,通过预测未来特征来消除由于时间异步性导致的特征错位。最后,我们引入了一种实用的协作转换器,以整合各代理之间的整体空间语义和时间上下文线索。
效果:我们在多个基于激光雷达的协作检测数据集上进行了全面评估,无论是在真实世界还是模拟场景中,实验结果都表明How2comm及其所有关键组件的优越性。代码将在https://github.com/ydk122024/How2comm上发布。
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections
Chun-Han Yao Amit Raj Wei-Chih Hung Michael Rubinstein Yuanzhen Li Ming-Hsuan Yang Varun Jampani
研究问题:如何从单目图像中估计像动物身体这样的三维关节形状?
动机:由于相机视角、姿态、纹理和照明等的模糊性,从单目图像中估计三维关节形状具有固有的挑战性。
方法:我们提出了ARTIC3D,一个自监督框架,用于从野外稀疏的图像集合中重建每个实例的3D形状。具体来说,ARTIC3D建立在基于骨架的表面表示之上,并进一步受到Stable Diffusion的二维扩散先验的指导。首先,我们通过二维扩散增强输入图像以获得更清晰的蒙版估计和语义特征。其次,我们执行扩散引导的3D优化以估计高保真度且忠实于输入图像的形状和纹理。我们还提出了一种新技术,通过扩散模型计算比现有替代方案更稳定的图像级梯度。最后,我们通过在刚性部分变换下微调渲染的形状和纹理来生成逼真的动画。
效果:我们在多个现有的数据集以及新引入的带有遮挡和截断的嘈杂网络图像集合上进行了广泛的评估,结果表明ARTIC3D对嘈杂图像更具鲁棒性,在形状和纹理细节方面质量更高,并且在动画化时更加真实。
topic-3
training model efficient performance memory methods based large
Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture
Daniel Y Fu Simran Arora Jessica Grogan Isys Johnson Sabri Eyuboglu Armin W Thomas Benjamin Frederick Spector Michael Poli Atri Rudra Christopher Re
研究问题:现有的预训练语言模型和图像分类模型在序列长度和模型维度上的扩展都是呈二次方增长的,是否存在一种能够在这两方面都实现次二次方增长的高效架构?
动机:为了解决现有模型在序列长度和模型维度上的扩展问题,提出了Monarch Mixer(M2)模型。
方法:M2模型使用了同样的次二次方基元——Monarch矩阵,这是一种具有表达能力的结构矩阵,能捕获许多线性变换,并在GPU上实现了高硬件效率。
效果:实验结果表明,M2模型在三个领域的表现均优秀:非因果BERT风格的语言建模、ViT风格的图像分类以及因果GPT风格的语言建模。在非因果BERT风格的语言建模中,M2模型在下游GLUE质量上与BERT-base和BERT-large相当,但参数数量减少了27%,并且在序列长度为4K时,吞吐量提高了9.1倍。在ImageNet上,M2模型的准确性比ViT-b高出1%,而参数数量仅为其一半。对于因果GPT风格的模型,我们通过基于多元多项式评估和插值的新理论观点来减轻由遮蔽引入的二次瓶颈,使M2模型保持次二次方的同时成为因果模型。
Fine-Tuning Language Models with Just Forward Passes
Sadhika Malladi Tianyu Gao Eshaan Nichani Alex Damian Jason D. Lee Danqi Chen Sanjeev Arora
研究问题:大型语言模型的反向传播需要大量内存,如何进行有效的微调?
动机:零阶优化器理论上只需要两次前向传播就可以估计梯度,但在实践中对于大型模型来说速度太慢。
方法:提出一种内存高效的零阶优化器(MeZO),将经典的零阶随机梯度下降法改为原地操作,使微调大型语言模型的内存占用与推理相同。
效果:实验表明,MeZO在多种任务上的表现优于上下文学习和线性探测,与使用反向传播进行微调的效果相当,同时内存和GPU计算时间分别减少了12倍和2倍。
Scaling Data-Constrained Language Models
Niklas Muennighoff Alexander M Rush Boaz Barak Teven Le Scao Nouamane Tazi Aleksandra Piktus Sampo Pyysalo Thomas Wolf Colin Raffel
研究问题:本文旨在探讨在数据受限的情况下,如何扩展语言模型。
动机:随着互联网上文本数据的增多,训练数据集的大小可能很快会受到限制。因此,我们研究了在数据受限的情况下如何扩展语言模型。
方法:通过大量实验,改变数据重复和计算预算的程度,最大达到9000亿个训练标记和90亿个参数模型。我们发现,在固定的计算预算下,使用重复数据进行训练时,与使用唯一数据相比,损失几乎没有变化。但是,随着重复次数的增加,增加计算的价值最终会衰减为零。我们提出了一种计算最优性的缩放定律,该定律考虑了重复标记和多余参数的递减价值。最后,我们尝试了一些缓解数据稀缺性的方法,包括使用代码数据扩充训练数据集或删除常用的过滤器。
效果:我们的400次训练运行的模型和数据集可以在https://github.com/huggingface/datablations上免费下载。
Bridging Discrete and Backpropagation: Straight-Through and Beyond
Liyuan Liu Chengyu Dong Xiaodong Liu Bin Yu Jianfeng Gao
研究问题:深度学习的基石反向传播在处理离散潜在变量的问题上存在局限性。
动机:为了解决涉及离散潜在变量的问题,我们提出了一种新的方法来近似生成离散潜在变量的参数梯度。
方法:我们首先检查了广泛使用的直通(ST)启发式方法,并证明它作为梯度的第一阶近似是有效的。然后,我们提出了ReinMax,通过整合求解ODEs的二阶数值方法Heun的方法,实现了二阶精度。ReinMax不需要海森矩阵或其他二阶导数,因此计算开销可以忽略不计。
效果:我们在各种任务上的大量实验结果表明,ReinMax优于现有技术。
How to Scale Your EMA
Dan Busbridge Jason Ramapuram Pierre Ablin Tatiana Likhomanenko Eeshan Gunesh Dhekane Xavier Suau Russell Webb
研究问题:如何在保持训练动态性的同时,在不同的批量大小之间进行权衡?
动机:在机器学习中,保持训练动态性是一个重要的工具,它能够在批量大小和计算时间之间进行权衡。
方法:提出了一种新的优化模型EMA的缩放规则,该规则在不同的架构、优化器和数据模态上均有效。
效果:实验证明,这种缩放规则在模型EMA有助于目标模型优化的情况下也有效,可以在小批量和大批量上都进行EMA基的伪标签和自监督学习的训练。对于自监督学习,实现了在理想硬件设置下,批量大小达到24576时的训练,计算时间减少了6倍。
Memory Efficient Optimizers with 4-bit States
Bingrui Li Jianfei Chen Jun Zhu
研究问题:优化器状态是训练神经网络的主要内存消耗源,限制了在给定内存预算内可训练的最大模型。
动机:将优化器状态从32位浮点数压缩到更低的位宽有望降低训练内存占用,而目前最低可实现的位宽为8位。
方法:通过详细分析一阶和二阶矩,我们将优化器状态的位宽压缩到4位。具体来说,我们发现矩具有复杂的异常模式,当前的块状量化无法准确近似。我们使用更小的块大小,并建议利用行和列的信息进行更好的量化。我们还识别出二阶矩量化的零点问题,并通过排除零点的线性量化器解决了这个问题。
效果:我们的4位优化器在各种基准测试上进行了评估,包括自然语言理解、机器翻译、图像分类和指令调优。在所有任务中,我们的优化器都能实现与全精度对应物相当的准确性,同时享受更好的内存效率。
Hierarchically Gated Recurrent Neural Network for Sequence Modeling
Zhen Qin Songlin Yang Yiran Zhong
研究问题:如何有效地进行序列建模?
动机:尽管Transformers在并行训练和长期依赖性建模方面优于RNN,但最近有研究者开始重新关注使用线性RNN进行高效序列建模。
方法:本文提出了一种名为分层门控循环神经网络(HGRN)的模型,该模型在循环层的输出中使用了门控机制,同时考虑了在循环中使用遗忘门的重要性。
效果:通过在语言建模、图像分类和长范围竞技场基准测试上的实验,证明了HGRN模型的有效性和效率。
Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers
Sotiris Anagnostidis Dario Pavllo Luca Biggio Lorenzo Noci Aurelien Lucchi Thomas Hofmann
研究问题:大型语言模型中的自回归变压器很难扩展到长序列,尽管有几种方法试图降低其计算成本,但大多数语言模型仍然在所有序列令牌对之间采用注意力层,从而产生二次成本。
动机:本文提出了一种新颖的方法,该方法在保持模型表达能力的同时动态地修剪上下文信息,从而减少了推理过程中的内存和计算需求。
方法:我们的方法采用了一种可学习的机制,该机制决定了在生成过程的任何一点都可以从上下文中删除哪些无信息的令牌。通过这样做,我们的方法不仅解决了性能问题,还增强了解释性,为模型的决策过程提供了有价值的见解。
效果:实证研究发现,我们可以有效地修剪高达80%的上下文,而不会显著降低下游任务的性能,这为减轻推理成本提供了有价值的工具。我们的参考实现实现了推理吞吐量最多提高2倍,甚至更大的内存节省。
Kronecker-Factored Approximate Curvature for Modern Neural Network Architectures
Runa Eschenhagen Alexander Immer Richard E Turner Frank Schneider Philipp Hennig
研究问题:如何利用二次优化方法K-FAC来加速神经网络的训练并降低计算成本。
动机:现代神经网络架构的核心组件,如转换器、卷积或图神经网络,都可以表示为具有*权重共享*的线性层。K-FAC是一种有前景的二次优化方法,可以加快神经网络的训练并减少计算成本,但目前还没有适用于通用架构(特别是具有线性权重共享层的架构)的框架。
方法:我们确定了两种不同的线性权重共享层设置,分别对应K-FAC的两种变体——*扩展*和*缩减*。我们发现它们在深度线性网络中是精确的,且各自在其设置中具有权重共享。值得注意的是,K-FAC-缩减通常比K-FAC-扩展更快,我们利用这一点通过优化广残差网络的边缘似然性来加速自动超参数选择。
效果:当我们使用这两种K-FAC变体来训练图神经网络和视觉变换器时,我们发现它们之间几乎没有差异。然而,这两种变体都能够在第一步参考运行的$50-75\%$步数内达到固定的验证指标目标,这相当于在墙钟时间上取得了相当的改进。这突显了将K-FAC应用于现代神经网络架构的潜力。
WITRAN: Water-wave Information Transmission and Recurrent Acceleration Network for Long-range Time Series Forecasting
Yuxin Jia Youfang Lin Xinyan Hao Yan Lin Shengnan Guo Huaiyu Wan
研究问题:如何准确捕捉长期时间序列预测中的语义信息,包括全局和局部的相关性以及长短期重复模式。
动机:现有的方法无法同时解决这些问题,且在时间和内存复杂度上仍不适合长期预测。
方法:提出一种新颖的“水波信息传输”(WIT)框架,通过双粒度信息传输捕捉长短期重复模式,并通过HVGSU递归融合和选择信息来模拟全局和局部相关性。同时,为提高计算效率,提出了一种通用的循环加速网络(RAN),将时间复杂度降低到O(√L),而内存复杂度保持在O(L)。
效果:提出的“水波信息传输和循环加速网络”(WITRAN)方法在长期和超长期时间序列预测任务上分别比现有方法提高了5.80%和14.28%,实验结果在四个基准数据集上进行了验证。
Stable Nonconvex-Nonconcave Training via Linear Interpolation
Thomas Pethick Wanyun Xie Volkan Cevher
研究问题:本文旨在理论分析线性插值作为一种稳定(大规模)神经网络训练的原则性方法。
动机:优化过程中的不稳定性通常是由损失函数的非单调性引起的,本文展示了线性插值如何通过利用非扩张算子理论来帮助解决这个问题。
方法:构建了一种新的优化方案,称为放松近似近点(RAPP),这是第一个实现全范围共亚单调问题的最后迭代收敛率的显式方法。该构造扩展到约束和正则化设置。
效果:通过对生成对抗网络的实验证明,RAPP和Lookahead中的线性插值都有其优点,证实了结果的有效性。
Blockwise Parallel Transformers for Large Context Models
Hao Liu Pieter Abbeel
研究问题:现有的Transformer模型在处理长序列和长期依赖的任务时,由于自注意力机制和大型前馈网络的内存需求大,存在挑战。
动机:提出一种名为Blockwise Parallel Transformer(BPT)的新方法,通过块状计算自注意力和融合前馈网络来降低内存成本。
方法:BPT采用块状计算自注意力和融合前馈网络的方法,以保持内存效率的同时处理更长的输入序列。
效果:实验证明,BPT可以在训练序列长度上比原始的Transformers长32倍,比之前的内存高效方法长4倍,同时减少了内存需求并提高了性能。
Grounding Neural Inference with Satisfiability Modulo Theories
Zifan Wang Saranya Vijayakumar Kaiji Lu Vijay Ganesh Somesh Jha Matt Fredrikson
研究问题:如何将SMT求解器整合到深度神经网络中,以弥补归纳学习和符号推理技术之间的鸿沟。
动机:目前的深度学习模型在处理符号推理方面的性能有待提高,而将SMT求解器整合到网络中可以有效地解决这个问题。
方法:提出了一种名为SMTLayer的技术,将SMT求解器整合到网络的前向和后向传播过程中。在前向传播过程中,求解器使用前一层产生的符号和数学公式进行推理;在后向传播过程中,求解器指导网络的更新,使其表示与求解器的理论相兼容。
效果:实验结果表明,使用SMTLayer的模型1)需要的训练样本比传统模型少,2)对某些类型的协变量偏移具有鲁棒性,3)最终学习到的表示与符号知识一致,因此具有自然可解释性。
Reinforcement-Enhanced Autoregressive Feature Transformation: Gradient-steered Search in Continuous Space for Postfix Expressions
Dongjie Wang Meng Xiao Min Wu pengfei wang Yuanchun Zhou Yanjie Fu
研究问题:本文旨在解决现有离散特征转换方法在搜索空间过大、效率与稳定性难以兼顾的问题。
动机:现有的离散特征转换方法,如穷举搜索、扩展缩减、进化算法、强化学习和迭代贪婪等,都面临着搜索空间过大的问题。过度强调算法设计的效率通常会牺牲稳定性或鲁棒性。
方法:本文将离散特征转换重新定义为一个连续空间优化任务,并开发了一个嵌入优化重建框架。该框架包括四个步骤:1)增强的强化数据准备,以准备高质量的转换准确性训练数据;2)特征转换操作序列嵌入,旨在将准备好的训练数据的知识封装在一个连续的空间中;3)梯度引导的最佳嵌入搜索,致力于在已学习的空间中发现潜在的优秀嵌入;4)转换操作序列重建,力求重现特征转换解决方案,以精确定位最佳特征空间。
效果:通过大量的实验和案例研究,证明了该方法的有效性和鲁棒性。
Randomized Sparse Neural Galerkin Schemes for Solving Evolution Equations with Deep Networks
Jules Berman Benjamin Peherstorfer
研究问题:训练神经网络以近似时间依赖偏微分方程的解场,但这种按时间顺序的训练在数值上具有挑战性,因为训练误差会随时间快速累积和放大。
动机:本文提出了神经伽辽金方案,通过在每个时间步更新网络参数的随机稀疏子集,避免局部过度拟合,防止误差在按时间顺序的训练中迅速累积。
方法:利用神经伽辽金方案进行训练,其随机化更新可以避免局部过拟合,减少训练的计算成本而不会损失表现力。
效果:在一系列演化方程的数值实验中,与稠密更新方案相比,所提出的随机稀疏更新方案在固定的计算预算下准确性提高了两个数量级,在固定的准确性下速度提高了两个数量级。
SimFBO: Towards Simple, Flexible and Communication-efficient Federated Bilevel Learning
Yifan Yang Peiyao Xiao Kaiyi Ji
研究问题:如何提高联邦双层优化(FBO)在机器学习和边缘计算中的性能,减少复杂的计算和通信开销。
动机:现有的FBO算法通常涉及复杂的计算,每个迭代都需要多个子循环,导致通信开销大。
方法:提出了一种简单灵活的FBO框架SimFBO,无需子循环,通过服务器端的聚合和更新来提高通信效率。同时,还提出了系统级异构鲁棒FBO(ShroFBO),以增强对异构本地计算的韧性。
效果:实验证明,SimFBO和ShroFBO在部分客户端参与和无替换客户端采样的情况下,可以显著提高收敛速度,降低样本和通信复杂度,优于现有的FBO算法。
Model Sparsity Can Simplify Machine Unlearning
Jinghan Jia Jiancheng Liu Parikshit Ram Yuguang Yao Gaowen Liu Yang Liu Pranay Sharma Sijia Liu
研究问题:如何有效地进行机器去学习,以去除特定示例对模型的影响。
动机:由于数据调控要求,需要开发有效的、近似的去学习技术来减少特定示例对模型的影响。
方法:提出了一种新的基于模型的视角:通过权重剪枝实现模型稀疏化,可以缩小精确去学习和近似去学习之间的差距。
效果:理论和实践都表明,模型稀疏性可以提高近似去学习器的多准则去学习性能,同时保持效率。在各种去学习场景中,我们的方法都能带来持续效益。
DIFUSCO: Graph-based Diffusion Solvers for Combinatorial Optimization
Zhiqing Sun Yiming Yang
研究问题:本文旨在通过引入一种新的基于图的扩散框架DIFUSCO,扩大神经网络解决NP-完全问题的当前范围。
动机:目前的神经网络求解器在解决NP-完全问题上取得了一些成果,但依赖于手工制作的知识领域。本文提出了一种新的基于图的扩散模型,以生成高质量的解决方案。
方法:将NPC问题转化为离散的{0,1}向量空间,并使用基于图的去噪扩散模型来生成高质量的解决方案。具体来说,我们探索了具有高斯和伯努利噪声的扩散模型,并引入了一种有效的推理计划来提高生成质量。
效果:实验结果表明,DIFUSCO显著优于先前最先进的神经网络求解器,缩小了真实值与神经网络求解器之间的性能差距。在TSP-500、TSP-1000和TSP-10000上,DIFUSCO的性能分别提高了1.76%到0.46%、2.46%到1.17%和3.19%到2.58%。对于MIS问题,DIFUSCO在具有挑战性的SATLIB基准测试中优于先前最先进的神经网络求解器。
Alternating Updates for Efficient Transformers
Cenk Baykal Dylan J Cutler Nishanth Dikkala Nikhil Ghosh Rina Panigrahy Xin Wang
研究问题:如何提高深度学习模型的性能,同时降低计算成本和推理延迟?
动机:增加深度学习模型的规模可以提高质量和性能,但同时也会增加计算成本和推理延迟。
方法:提出了一种名为Alternate Updates(AltUp)的方法,通过交替更新模型的子块来扩大学习到的表示,从而在不增加延迟的情况下提高模型的容量。
效果:实验结果表明,AltUp在基准测试模型和语言任务上表现出一致的效果,并在SuperGLUE和SQuAD基准测试中实现了高达87%的速度提升。
MeCo: Zero-Shot NAS with One Data and Single Forward Pass via Minimum Eigenvalue of Correlation
Tangyu Jiang Haodi Wang Rongfang Bie
研究问题:现有的零样本神经网络架构搜索(NAS)方法需要通过至少一次反向传播或高度研究问题:现有的零样本神经网络架构搜索(NAS)方法需要通过至少一次反向传播或高度依赖数据和标签的特定指标进行评估,这限制了其应用。
动机:为了解决上述问题,本文提出了一种新的零成本代理方法,该方法只需要一次前向传播和一个随机数据就可以评估网络性能。
方法:首先,我们揭示了特征图的皮尔森相关矩阵如何影响过参数化神经网络的收敛速度和泛化能力。然后,我们提出了一种名为$\mathsf{MeCo}$的新型零成本代理方法,并设计了一种优化方法$mathsf{MeCo_{opt}}$来提高其性能。
效果:实验结果表明,$\mathsf{MeCo}$在所有最先进的代理中与真实值的相关性最高(例如,在NATS-Bench-TSS上使用CIFAR-10时为0.89),并且完全独立于数据和标签。此外,我们将$mathsf{MeCo}$与现有的生成方法集成,构成了一个完整的NAS。实验结果显示,基于$\mathsf{MeCo}$的NAS可以选择具有最高准确性和低搜索成本的架构。
On quantum backpropagation, information reuse, and cheating measurement collapse
Amira Abbas Robbie King Hsin-Yuan Huang William J. Huggins Ramis Movassagh Dar Gilboa Jarrod Ryan McClean
研究问题:本文旨在探讨参数化量子模型是否能像经典神经网络一样有效训练。
动机:现代深度学习的成功依赖于大规模训练神经网络的能力,而量子测量崩溃似乎完全排除了信息再利用的可能性。然而,影子断层扫描的最新发展挑战了这个观点。
方法:通过影子断层扫描,我们假设可以访问量子状态的多个副本,并引入了一种基于影子断层扫描的算法,该算法在量子资源上实现了反向传播的规模,同时减少了经典的辅助计算成本。
效果:这些结果突出了在实际目的中重用量子信息的独特困难,并阐明了训练大型量子模型的独特困难,这可能会改变量子机器学习的进程。
QuIP: 2-Bit Quantization of Large Language Models With Guarantees
Jerry Chee Yaohui Cai Volodymyr Kuleshov Christopher De Sa
研究问题:本文研究了大型语言模型的后训练参数量化问题。
动机:为了提高大型语言模型的运行效率,需要对其进行量化处理,但现有的量化方法效果不佳。
方法:提出了一种新的量化方法——量化与不连贯处理(QuIP),该方法基于权重和海森矩阵的不连贯性,通过随机正交矩阵的乘法来确保权重和海森矩阵的不连贯性。
效果:实验结果表明,QuIP在几种现有的量化算法上都有改进,并且是第一个能在大型语言模型上使用仅两位元进行量化的方法。
Separable Physics-Informed Neural Networks
Junwoo Cho Seungtae Nam Hyunmo Yang Seok-Bae Yun Youngjoon Hong Eunbyung Park
研究问题:训练物理感知神经网络(PINNs)解决多维偏微分方程(PDEs)和逼近复杂解函数存在基本限制。
动机:在挑战性的PDEs上,所需的训练点(配置点)数量显著增加,由于昂贵的计算成本和沉重的内存开销,这受到严重限制。
方法:提出一种新的网络架构和训练算法,即分离的物理感知神经网络(SPINN)。SPINN按每个轴进行操作,减少传统PINN中的点到点处理,从而降低多维PDEs中的网络传播次数。同时,使用前向模式自动微分来降低计算PDE残差的计算成本,使得单个商用GPU上可以有多达$10^7$的配置点。
效果:实验结果表明,在保持准确性的同时,SPINN在多维PDEs上的计算成本大大降低(在相同配置点数量的情况下,所需时间减少了62倍,FLOPs减少了1394倍)。此外,SPINN能够比性能最佳的先前方法更快地解决混沌的(2+1)-d Navier-Stokes方程(单GPU上9分钟 vs. 10小时),并保持准确性。最后,展示了SPINN能够准确获得高度非线性和多维的PDE——(3+1)-d Navier-Stokes方程的解决方案。
Coop: Memory is not a Commodity
Jianhao Zhang Shihan Ma Peihong Liu Jinhui Yuan
研究问题:现有的张量重构技术忽视了深度学习框架中的内存系统,并错误地假设不同地址的空闲内存块是相同的,导致严重的内存碎片和潜在的重构成本增加。
动机:为了解决这个问题,我们提出了一种在滑动窗口内逐块逐块地逐出张量的方法,以确保所有被逐出的张量都是连续的,并且可以立即使用。
方法:我们进一步提出了廉价的张量划分和可计算的原地操作,以通过优化张量分配来进一步降低重构成本。
效果:我们的实验结果表明,与最先进的基线相比,该方法实现了高达2倍的内存节省,并大大减少了计算开销、搜索延迟和内存碎片。
Mitigating the Popularity Bias of Graph Collaborative Filtering: A Dimensional Collapse Perspective
Yifei Zhang Hao Zhu yankai Chen Zixing Song Piotr Koniusz Irwin King
研究问题:图基协同过滤(GCF)在个性化推荐系统中广泛应用,但其基本问题是特征研究问题:图基协同过滤(GCF)在个性化推荐系统中广泛应用,但其基本问题是特征倾向于低效地占据嵌入空间,导致流行项目主导了嵌入空间。
动机:为了解决流行项目主导的问题,提高不流行项目的性能,我们提出了一种利用非欧几里得几何的解耦增强GCF目标的方法。
方法:我们分析了GCF中的特征矩阵奇异空间收缩的现象,并提出了一种新的优化目标,通过利用嵌入中的冗余减少原理来促进特征多样性。与使用欧几里得几何放松硬约束的传统方法不同,我们选择使用非欧几里得几何来保持矩阵的范围空间和获得小的条件数,防止嵌入空间退化。
效果:我们的新方法在几个基准数据集上优于对比基GCF模型,提高了不流行项目的性能。
ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual Tracking
Yutong Kou Jin Gao Bing Li Gang Wang Weiming Hu Yizheng Wang Liang Li
研究问题:如何通过缩小输入尺寸,实现高速追踪的同时接近甚至达到最先进的追踪性能。
动机:尽管基于变换器的高速追踪器在小输入尺寸或轻量级特征提取主干的帮助下已经接近了最先进的性能,但它们仍然大大落后于其对应的性能导向版本。
方法:我们提出非均匀调整裁剪图像的大小以获得较小的输入尺寸,同时提高目标更可能出现的区域的分辨率,反之亦然。这使得我们可以解决在保持较小输入尺寸的同时关注更大的视觉场并保留更多原始目标信息的难题。
效果:我们在两个基于变换器的追踪器OSTrack和TransT上进行了全面的实验,结果表明我们的方法是有效的,特别是在速度导向版本的OSTrack上,其在TNL2K数据集上的性能甚至超过了其性能导向的版本0.6% AUC,同时运行速度提高了50%,节省了超过55%的MACs。
Robust Model Reasoning and Fitting via Dual Sparsity Pursuit
Xingyu Jiang Jiayi Ma
研究问题:解决异常值剔除、真实模型推理和参数估计的优化建模问题。
动机:通过统一优化建模,解决稀疏子空间恢复问题,寻找过嵌入数据空间的最大独立基。
方法:将目标转化为连续优化范式,同时估计基和误差的稀疏解。提出快速且稳健的求解器,通过最优次梯度下降法在交替优化框架下的近似方法进行实现。
效果:在已知和未知模型拟合的合成和具有挑战性的实数据集上进行的大量实验表明,该方法优于最先进的方法。将其应用于多类多模型拟合和环路闭合检测,在准确性和效率方面均取得了良好的结果。代码已发布在:https://github.com/StaRainJ/DSP。
Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale From A New Perspective
Zeyuan Yin Eric Xing Zhiqiang Shen
研究问题:如何有效地压缩数据集,以适应不同的数据集规模、模型架构和图像分辨率?
动机:现有的数据集压缩方法存在优化模型和合成数据的双重最优化问题,限制了其在不同规模数据集、模型架构和图像分辨率上的灵活性。
方法:提出了一种新的数据集压缩框架Squeeze, Recover and Relabel (SRe$^2$L),该框架将模型和合成数据的双层最优化解耦,能够处理不同规模的数据集、模型架构和图像分辨率,进行高效的数据集压缩。
效果:在Tiny-ImageNet和full ImageNet-1K数据集上进行的大量实验表明,该方法在50 IPC下实现了最高的42.5%和60.8%的验证精度,比所有先前最先进的方法分别高出14.5%和32.9%。此外,该方法在数据合成速度上比MTT快约52倍和16倍,内存消耗少11.6倍和6.4倍。
Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers
Zixuan Jiang Jiaqi Gu Hanqing Zhu David Z. Pan
研究问题:目前,Transformers在机器学习应用中取得了巨大的成功,但在选择归一化技术时,Layer Normalization和Root Mean Square Normalization之间存在争议。
动机:尽管RMSNorm在计算上更有效率,但可能会影响Transformers的表示能力。同时,将一种归一化技术转换为另一种类型具有挑战性。
方法:我们提出了一个解决方案,通过消除Pre-LN Transformers主分支中的冗余均值信息,将LayerNorm转化为RMSNorm,从而实现更高的效率。我们还提出了基于零均值向量无损压缩的Compressed RMSNorm (CRMSNorm)和Pre-CRMSNorm Transformer。
效果:实验证明,我们可以将Pre-LN Transformers的训练和推理时间减少1% - 10%。
QuantSR: Accurate Low-bit Quantization for Efficient Image Super-Resolution
Haotong Qin Yulun Zhang Yifu Ding Yifan liu Xianglong Liu Martin Danelljan Fisher Yu
研究问题:如何通过低比特量化实现图像超分辨率(SR)的准确和高效处理。
动机:尽管低比特量化可以显著减少参数和操作,但许多量化SR模型的准确性会低于全精度模型,特别是在极低比特宽度(2-4比特)下,限制了其实际应用。
方法:提出一种名为QuantSR的新型量化图像SR网络,通过引入可学习的重新分配量化器(RLQ)来克服量化在网络中引起的表示同质性问题。同时,提出深度动态量化架构(DQA),以在推理过程中灵活地进行效率与准确性的权衡。
效果:实验表明,QuantSR在准确性方面优于现有的最先进的量化SR网络,同时也提供了更具竞争力的计算效率。此外,通过提供用于卷积和变压器版本的QuantSR-C和QuantSR-T,展示了该方案的良好架构通用性。
k-Median Clustering via Metric Embedding: Towards Better Initialization with Differential Privacy
Chenglin Fan Ping Li Xiaoyun Li
研究问题:在聚类算法中,初始中心的选择对学习到的簇的质量至关重要。
动机:我们提出了一种新的初始化方案,用于解决一般度量空间(如由图诱导的离散空间)中的k-median问题。
方法:我们基于数据构建度量嵌入树结构,提出了一种新颖且高效的搜索算法,用于寻找良好的初始中心,这些初始中心随后可用于局部搜索算法。
效果:我们的HST初始化方法可以产生比另一种流行的方法k-median++更低误差的初始中心,当k不太小时,效率也更高。我们的HST初始化还可以轻松扩展到差分隐私(DP)设置,以生成私有初始中心。实验表明,应用我们的私有HST初始化和DP局部搜索后,近似误差得到了改善,并在一个小因子内接近下限。
No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models
Jean Kaddour Oscar Key Piotr Nawrot Pasquale Minervini Matt Kusner
研究问题:近年来,基于Transformer的语言模型的训练计算需求急剧增加。
动机:这种趋势促使研究人员设计出更有效的算法,以提高训练、验证和下游性能,比标准的训练更快。
方法:我们重新审视了三类这样的算法:动态架构(层堆叠、层删除)、批量选择(选择性反向传播、RHO-loss)和高效优化器(Lion、Sophia)。
效果:我们发现,当使用这些方法在固定的计算预算下预训练BERT和T5时,它们在训练、验证和下游的收益与具有完全衰减学习率的基线相比几乎消失。
HiNeRV: Video Compression with Hierarchical Encoding-based Neural Representation
Ho Man Kwan Ge Gao Fan Zhang Andy Gower David Bull
研究问题:如何利用隐式神经表示(INRs)进行视频压缩,以实现与现有标准视频编解码器竞争的效果。
动机:现有的基于INR的视频压缩方法由于网络结构过于简单,其压缩性能无法达到最先进的水平。
方法:本文提出了HiNeRV,一种结合了轻量级层和新型分层位置编码的INR。通过深度可分离卷积、MLP和插值层构建了深度和宽度都很大的网络架构,同时HiNeRV还能同时对视频的帧和块进行统一表示。
效果:在UVG和MCL-JCV数据集上进行的实验表明,HiNeRV在视频压缩方面比所有现有的INRs基线都有显著的改进,并且与学习为基础的编解码器相比具有竞争力的性能(在UVG数据集上,总体比特率节省了72.3%,在DCVC上节省了43.4%,以PSNR衡量)。
Single-Pass Pivot Algorithm for Correlation Clustering. Keep it simple!
Konstantin Makarychev Sayak Chakrabarty
研究问题:如何利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE)。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,本文旨在通过结合知识图谱来增强语言表示。
方法:采用大规模文本语料库和知识图谱进行联合训练,训练出ERNIE模型。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Distributed Personalized Empirical Risk Minimization
Yuyang Deng Mohammad Mahdi Kamani Pouria Mahdavinia Mehrdad Mahdavi
研究问题:如何从异构数据源中学习,同时不对参与设备的共享计算资源施加严格限制。
动机:解决数据异质性问题,提高所有局部分布的统计准确性。
方法:提出个性化经验风险最小化(PERM)新范式,通过有效估计数据分布之间的统计差异来个性化本地经验损失的聚合,并设计分布式算法替代标准模型平均以优化所有设备的PERM目标。
效果:该算法能有效学习大规模个性化模型,同时适应不同客户的内存和计算资源,实验结果验证了其有效性。
Small batch deep reinforcement learning
Johan Samir Obando Ceron Marc G Bellemare Pablo Samuel Castro
研究问题:在基于值的深度强化学习中,批量大小参数指定每个梯度更新要采样的转换数量。尽管对学习过程至关重要,但通常在提出新算法时不会调整此值。
动机:本研究通过广泛的实证研究指出,减小批量大小可以带来显著的性能提升,这令人惊讶,因为训练神经网络的一般趋势是使用更大的批量大小来提高性能。
方法:我们提出了一种新的算法,通过减少批量大小来优化深度强化学习的性能。
效果:实验结果表明,减小批量大小可以显著提高性能,并通过一系列实证分析进一步理解了这一现象。
Conditional Adapters: Parameter-efficient Transfer Learning with Fast Inference
Tao Lei Junwen Bai Siddhartha Brahma Joshua Ainslie Kenton Lee Yanqi Zhou Nan Du Vincent Y Zhao Yuexin Wu Bo Li Yu Zhang Ming-Wei Chang
研究问题:如何通过条件计算平衡速度和精度,提高推理效率。
动机:现有的适配器方法在推理效率上有待提升。
方法:提出条件适配器(CoDA)方法,通过添加稀疏激活和少量新参数以及轻量级训练阶段,利用已有的预训练模型进行知识转移。
效果:实验表明,CoDA方法在多种语言、视觉和语音任务上,与最先进的适配器方法相比,推理速度提高了2倍至8倍,且准确率损失较小,参数效率相同。
Fast Attention Over Long Sequences With Dynamic Sparse Flash Attention
Matteo Pagliardini Daniele Paliotta Martin Jaggi François Fleuret
研究问题:如何有效地处理长度不断增长的序列,以降低计算复杂度并提高运行速度。
动机:Transformer模型在处理长序列时,自注意力机制的计算复杂度呈二次方增长,导致运行速度慢和计算资源消耗大。
方法:通过扩展FlashAttention,实现对多种稀疏注意力模式的支持,包括键/查询丢弃和基于哈希的注意力等,从而无需增加额外的计算复杂度,并在FlashAttention的基础上实现多倍的运行速度提升。
效果:在不牺牲困惑度的情况下,该方法能够显著提高Transformer语言模型的训练速度,对于8k和16k个标记的序列,训练速度分别提高了2.0倍和3.3倍。
$\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in Decentralized Deep Learning
Adel Nabli Eugene Belilovsky Edouard Oyallon
研究问题:如何有效地进行深度学习模型的分布式训练,以解决同步集中算法在大规模训练中存在的通信瓶颈和同步锁的问题。
动机:当前的深度学习模型主要依赖同步集中算法进行训练,但在大规模训练中,这种算法会导致严重的通信瓶颈和同步锁问题。分散异步算法作为潜在的替代方案,其实际应用仍显不足。
方法:我们提出了一种基于随机化、谣言传播的优化算法,该算法通过引入一个持续的局部动量$textbf{A}^2textbf{CiD}^2$来工作。这种方法允许每个工人在不停止的情况下连续处理小批量数据,并并行运行对等平均程序,从而减少空闲时间。
效果:我们的理论研究证明,与以往的异步分散基线相比,该方法可以加速学习速度。实验结果表明,在使用我们的$\textbf{A}^2\textbf{CiD}^2$动量时,即使在连接性较差的网络中,也可以显著降低通信成本。特别是在ImageNet数据集上,我们在最多64个异步工人(使用A100 GPU)和各种通信网络拓扑结构上取得了一致的改进效果。
Correlation Aware Sparsified Mean Estimation Using Random Projection
Shuli Jiang Pranay Sharma Gauri Joshi
研究问题:本文研究了分布式优化和联邦学习中常用的子任务——通信高效的分布式向量均值估计。
动机:在实际应用中,客户端之间可能存在相关性,而现有的随机$k$稀疏化技术(Rand-$k$)并未考虑到这种相关性。尽管最近提出的Rand-$k$-Spatial估计器利用了服务器端的跨客户端相关性信息来提高Rand-$k$的性能,但其性能仍不理想。因此,改进均值估计是加快分布式优化收敛速度的关键。
方法:我们提出了一种具有更灵活编码解码过程的Rand-Proj-Spatial估计器,该估计器通过将客户端向量投影到一个随机$k$维子空间来泛化Rand-$k$的编码。我们使用亚采样随机哈德马特变换(SRHT)作为投影矩阵,并证明使用SRHT的Rand-Proj-Spatial优于Rand-$k$-Spatial,能更有效地利用相关性信息。此外,我们还提出了一种引入不同程度相关性的方法,并在相关性信息不可用时提出了一种实用的Rand-Proj-Spatial变体。
效果:在真实世界的分布式优化任务上进行的实验表明,Rand-Proj-Spatial与Rand-$k$-Spatial和其他更复杂的稀疏化技术相比具有优越的性能。
BayesTune: Bayesian Sparse Deep Model Fine-tuning
Minyoung Kim Timothy Hospedales
研究问题:如何优化预训练模型的稀疏微调过程,选择更新哪些参数以提升下游任务的性能。
动机:当前的稀疏微调方法大多依赖于人工设定的策略或近似计算,缺乏理论指导和效率。
方法:提出一种贝叶斯稀疏微调算法,为预训练模型的每个参数设置稀疏拉普拉斯先验,通过后验均值判断参数是否需要更新。
效果:在NLP基准测试和VTAB视觉任务上,该方法比现有技术表现更好,例如,在RoBERTa的GLUE和SuperGLUE基准测试中,性能提高了1%。
Private Federated Frequency Estimation: Adapting to the Hardness of the Instance
Jingfeng Wu Wennan Zhu Peter Kairouz Vladimir Braverman
研究问题:如何在多个通信轮次中进行联邦频率估计,同时保持服务器只能访问客户端持有的向量之和的安全约束。
动机:在单轮通信的联邦频率估计中,已有的方法如count sketch已经接近信息理论最优。但在多轮通信中,需要提出更优的概略算法。
方法:提出了一种新的概略算法,该算法在多轮通信中的准确性优于简单的count sketch适应。对于简单的问题,我们的方法以及count sketch都可以实现更好的准确性。因此,我们提出了一个两阶段的方法,使得对于简单的问题可以使用更小的概略大小。最后,我们提供了使我们的算法具有差分隐私性的机制。
效果:通过在真实数据集上进行的实验,验证了我们的方法的性能。
Handling Data Heterogeneity via Architectural Design for Federated Visual Recognition
Sara Pieri Jose Renato Restom Samuel Horváth Hisham Cholakkal
研究问题:如何在不交换敏感信息的情况下,实现多方协同训练机器学习模型。
动机:联邦学习(FL)是一种有前景的研究范式,可以在各方之间进行机器学习模型的协同训练,而无需交换敏感信息。然而,保留在各个客户端的数据对达到与集中式训练模型相媲美的性能提出了根本性的挑战。
方法:本研究对视觉识别中的联邦学习进行了广泛的回顾和分析,强调了在实现最佳性能方面,深思熟虑的架构设计选择的关键作用。通过对卷积神经网络、变压器和MLP混合器等不同尖端架构的深入分析,我们实验性地证明了架构选择可以显著提高FL系统的性能,特别是在处理异构数据时。
效果:我们在四个具有挑战性的FL数据集上研究了五个不同架构家族的视觉识别模型。我们还重新研究了在FL设置中表现不佳的基于卷积的架构,并分析了归一化层对FL性能的影响。我们的发现强调了在实际场景中计算机视觉任务的架构设计的重要性,有效地缩小了联邦学习和集中式学习之间的性能差距。
Hardware Resilience Properties of Text-Guided Image Classifiers
Syed Talal Wasim Kabila Haile Soboka Abdulrahman Mahmoud Salman Khan David Brooks Gu-Yeon Wei
研究问题:如何在部署图像分类模型时提高其面对暂时性硬件错误的可靠性。
动机:利用来自GPT-3的丰富文本嵌入和CLIP预训练的文本编码器,作为分类层初始化,以提高图像分类模型在面临暂时性硬件错误时的可靠性。
方法:通过使用来自GPT-3的问题提示和CLIP预训练的文本编码器生成丰富的文本嵌入,并将其用作分类层的初始值。
效果:该方法在各种网络架构中的关键层实现了平均5.5倍的硬件可靠性增长(最高可达14倍),同时与基线PyTorch模型相比,准确率仅下降了0.3%。此外,该方法可以无缝集成到任何图像分类主干网络中,适用于各种网络架构,且参数和FLOPs开销较小,训练过程一致。这项研究为提高图像分类模型对硬件故障的鲁棒性提供了一种实用且高效的方法,对未来在此领域的研究具有潜在影响。
Convergence Analysis of Sequential Federated Learning on Heterogeneous Data
Yipeng Li Xinchen Lyu
研究问题:本文旨在解决联邦学习中,在异构数据上,顺序联邦学习(SFL)的收敛性理论尚未建立的问题。
动机:与并行联邦学习(PFL)相比,SFL在异构数据上的收敛性理论尚待完善。
方法:通过建立强/通用/非凸目标函数在异构数据上的SFL的收敛保证,比较了全和部分客户参与下的SFL和PFL在异构数据上的收敛性能。
效果:实验结果验证了在跨设备设置中,SFL在极端异构数据上优于PFL的反直觉分析结果。
CoPriv: Network/Protocol Co-Optimization for Communication-Efficient Private Inference
Wenxuan Zeng Meng Li Haichuan Yang Wen-jie Lu Runsheng Wang Ru Huang
研究问题:现有的基于安全2-party计算(2PC)的深度神经网络(DNN)推理方法,由于大量的通信操作,导致延迟开销巨大。
动机:目前的方法主要依赖ReLU计数这一代理指标来近似通信开销,并专注于减少ReLU以改善通信效率。然而,我们发现这些方法对于最新的2PC协议来说,由于忽视了其他线性和非线性操作,其实现的通信减少效果有限。
方法:我们提出了CoPriv框架,该框架将2PC推理协议和DNN架构进行联合优化。CoPriv采用了一种基于Winograd转换的卷积2PC新协议,并开发了对DNN敏感的优化方法,显著减少了推理通信。此外,CoPriv还开发了一种与所提出的协议兼容的2PC感知网络优化算法,同时减少了所有线性和非线性操作的通信。
效果:我们在CIFAR-100上比较了CoPriv与最新的2PC协议CrypTFlow2,结果显示在ResNet-18和ResNet-32上都实现了2.1倍的通信减少。我们还比较了CoPriv与最新的网络优化方法SNL、MetaPruning等,结果显示CoPriv在在线和总通信减少方面分别达到了9.98倍和3.88倍,并且准确率更高。相比MetaPruning,CoPriv在在线通信减少方面达到了3.87倍,并且准确率提高了超过3%。
MKOR: Momentum-Enabled Kronecker-Factor-Based Optimizer Using Rank-1 Updates
Mohammad Mozaffari Sikan Li Zhao Zhang Maryam Mehri Dehnavi
研究问题:如何提高深度神经网络的训练速度和收敛性?
动机:二阶技术虽然比一阶技术具有更高的收敛速度,但其模型大小或训练批量大小的立方复杂度导致其在大型语言模型等变压器模型中表现不佳。
方法:提出了一种名为MKOR的基于Kronecker因子的优化器,使用Rank-1更新,其复杂度与模型大小呈二次关系,缓解了二阶方法的计算瓶颈。通过降低二阶更新的通信复杂度并实现线性通信复杂度,MKOR增加了二阶更新的频率。
效果:实验表明,MKOR在BERT-Large-Uncased上的表现优于最先进的一阶方法LAMB优化器和最优秀的二阶方法KAISA/KFAC,分别高达2.57倍和1.85倍。
PDP: Parameter-free Differentiable Pruning is All You Need
Minsik Cho Saurabh Adya Devang Naik
研究问题:如何有效地减少DNN模型的大小,提高推理延迟,并最小化DNN加速器的功耗。
动机:现有的方法可能过于复杂、昂贵或无效,无法应用于各种视觉/语言任务和DNN架构,也无法满足结构化剪枝的约束。
方法:本文提出了一种高效且有效的训练时剪枝方案,参数自由可微分剪枝(PDP),在模型大小、准确性和训练成本方面提供最先进的质量。PDP使用动态权重函数在训练期间生成软剪枝掩码,以参数自由的方式为给定的剪枝目标生成权重。
效果:例如,对于MobileNet-v1,PDP可以在86.6%的稀疏度下实现68.2%的ImageNet1k top-1准确率,比现有算法高出1.7%的准确率。此外,对于BERT,PDP在90%的稀疏度下实现了超过83.1%的Multi-Genre自然语言推理准确率,而现有技术中最好的结果为81.5%。此外,PDP还可以应用于结构化剪枝,如N:M剪枝和通道剪枝。对于ResNet18的1:4结构化剪枝,PDP将top-1 ImageNet1k准确率提高了超过3.6%。对于ResNet50的通道剪枝,PDP将top-1 ImageNet1k准确率降低了0.6%。
Efficient Beam Tree Recursion
Jishnu Ray Chowdhury Cornelia Caragea
研究问题:本文旨在解决Beam Tree Recursive Neural Network(BT-RvNN)内存使用过高的问题。
动机:尽管BT-RvNN在ListOps任务上的表现优于之前的方法,但其高昂的内存使用成本仍是一个问题。
方法:作者识别出BT-RvNN内存使用的主要瓶颈在于评分函数和递归细胞函数的纠缠,并提出了相应的策略来消除这个瓶颈,进一步简化其内存使用。
效果:这些策略不仅将BT-RvNN的内存使用降低了10-16倍,还创造了新的ListOps性能最优解,同时在其他任务上保持了相似的性能。此外,作者还提出了一种策略,利用BT-RvNN产生的隐式树节点表示,将其从形式为f: Rn×d→Rd的句子编码器转变为形式为f: Rn×d→Rn×d的标记上下文化器。因此,这些提案不仅为RvNN的进一步扩展开辟了道路,也为将BT-RvNN作为深度学习工具包中的另一个构建模块提供了标准化的方式,可以方便地与其他流行的模型如Transformers和结构化状态空间模型进行堆叠或接口连接。
Addressing the speed-accuracy simulation trade-off for adaptive spiking neurons
Luke Taylor Andrew J King Nicol Spencer Harper
研究问题:如何在模拟大脑神经元时平衡速度和准确性?
动机:目前的模拟方法在模拟大脑神经元时,要么使用小的时间步长进行准确模拟但速度较慢,要么使用大的时间步长进行快速模拟但会损失模拟的准确性。
方法:通过算法重新解释自适应泄漏积分-触发器(ALIF)模型,降低序列模拟的复杂性,并允许在GPU上进行更有效的并行化。
效果:在合成基准测试中,使用小的时间步长,我们的实现获得了超过50倍的训练速度提升。在不同的有监督分类任务上,我们的方法与标准的ALIF实现相比,性能相当,但训练时间更短。此外,我们还展示了如何快速准确地拟合皮质神经元的真实电生理记录,其中非常精细的亚毫秒级时间步长对于捕获精确的尖峰定时至关重要。
Recursion in Recursion: Two-Level Nested Recursion for Length Generalization with Scalability
Jishnu Ray Chowdhury Cornelia Caragea
研究问题:如何在保持计算效率的同时,提高神经网络模型处理复杂任务的能力。
动机:现有的平衡二叉树递归神经网络(BBT-RvNNs)虽然在长序列任务上效率高,但不能解决简单的算术任务;而其他能解决这类问题的递归神经网络模型(如Beam Tree RvNN)在时间和空间上的消耗则大得多。
方法:提出一种新的框架——递归中的递归(RIR),采用两层嵌套的递归结构,外层为k元平衡树模型,内层实现其单元功能。在内层递归中,选择使用Beam Tree RvNNs,并提出一种beam对齐策略来调整其在RIR中的表现。
效果:RIR模型首次实现了在ListOps任务上的高度泛化性能(达到90%以上),同时具有足够的可扩展性,可以训练处理来自Long Range Arena的长序列输入。在LRA语言任务的准确性方面,RIR与Structured State Space Models(SSMs)竞争,且无需特殊初始化即可超越Transformers。
Pruning vs Quantization: Which is Better?
Andrey Kuzmin Markus Nagel Mart Van Baalen Arash Behboodi Tijmen Blankevoort
研究问题:本文旨在回答神经网络压缩中量化和剪枝哪种技术更好的问题。
动机:虽然神经网络剪枝和量化技术已经存在很久,但至今只有一些针对两者的比较结果被发表。作者希望通过回答这个问题,为未来的神经网络硬件设计提供决策依据。
方法:作者对深度神经网络的两种压缩技术进行了广泛的比较。首先,对于一般的数据分布,给出了预期的量化和剪枝误差的解析比较;然后,提供了训练网络中每层剪枝和量化误差的下界和上界,并将其与优化后的实证误差进行比较;最后,对8个大型模型进行了广泛的实验比较,这些模型在3个任务上进行训练,并提供了关于量化和剪枝循环微调过程中学习到的表示的见解。
效果:结果显示,在大多数情况下,量化优于剪枝。只有在压缩比非常高的情况下,从准确性的角度来看,压缩可能更有利。
Efficient Data Subset Selection to Generalize Training Across Models: Transductive and Inductive Networks
Eeshaan Jain Tushar Nandy Gaurav Aggarwal Ashish V. Tendulkar Rishabh K Iyer Abir De
研究问题:现有的子集选择方法主要采用离散组合和特定模型的方法,缺乏通用性,对于新的模型,算法必须从头开始执行。
动机:为了解决上述问题,本文提出了SubSelNet,一个非适应性的子集选择框架。
方法:首先引入了一种基于注意力的神经网络小工具,利用体系结构的图结构,作为已训练深度神经网络的替代品进行快速模型预测。然后使用这些预测来构建子集采样器。
效果:实验表明,该模型在多个真实数据集上优于几种方法。
Learning to Search Feasible and Infeasible Regions of Routing Problems with Flexible Neural k-Opt
Yining Ma Zhiguang Cao Yeow Meng Chee
研究问题:本文旨在提出一种新的学习搜索(L2S)算法,用于解决路由问题。
动机:现有的学习搜索算法主要基于可行性掩蔽方案,无法自主探索可行和非可行区域。
方法:提出了一种名为NeuOpt的新的L2S求解器,它通过定制的动作分解方法和循环双流解码器进行灵活的k-opt交换。同时,提出了引导非可行区域探索(GIRE)方案,以补充NeuOpt策略网络的可行性相关特征,并利用奖励塑造更有效地指导强化学习。此外,还为NeuOpt配备了动态数据增强(D2A),以在推理过程中进行更多样化的搜索。
效果:在旅行商问题(TSP)和载货车辆路径问题(CVRP)上的大量实验表明,NeuOpt不仅显著超越了现有的(基于掩蔽的)L2S求解器,而且比学习构建(L2C)和学习预测(L2P)求解器表现出优越性。
EvoFed: Leveraging Evolutionary Strategies for Communication-Efficient Federated Learning
Mohammad Mahdi Rahimi Hasnain Irshad Bhatti Younghyun Park Humaira Kousar Do-Yeon Kim Jaekyun Moon
研究问题:如何在不共享数据的情况下,实现分散节点的模型训练。
动机:现有的联邦学习模式由于需要传输大量的模型参数,导致通信成本高昂,阻碍了其广泛应用。
方法:本文提出了一种名为EvoFed的新方法,将进化策略(ES)与联邦学习(FL)相结合,以解决这些问题。EvoFed采用了基于“适应度的信息共享”概念,与传统的基于模型的联邦学习有显著的不同。每个节点并不交换实际更新的模型参数,而是传输本地更新模型与噪声扰动模型种群中每个成员的距离相似性度量。
效果:实验结果表明,EvoFed在各种实际应用设置中,虽然增加了本地处理负载,但能在保持性能与FedAvg相当的同时,大幅减少总通信需求。
Linear Time Algorithms for k-means with Multi-Swap Local Search
Junyu Huang Qilong Feng Ziyun Huang Jinhui Xu Jianxin Wang
研究问题:解决聚类问题的局部搜索方法。
动机:单次交换策略的局部搜索算法在处理大规模数据集时,其近似比与多次交换策略的局部搜索算法存在较大差距。
方法:提出一种线性时间复杂度的多次交换局部搜索算法用于解决k-means问题。该算法在给定交换次数t的情况下,可以达到(50(1+\frac{1}{t})+\epsilon)的近似比,改进了目前的最佳结果。
效果:与其他现有的局部搜索算法相比,该方法是首个实现线性时间复杂度的算法。通过采样加速交换过程中的聚类成本更新,并引入重组机制寻找可能的更好解决方案。实验证明,新提出的算法在小型和大型数据集上的表现均优于现有最先进的局部搜索算法和分支定界求解器。
EvoPrompting: Language Models for Code-Level Neural Architecture Search
Angelica Chen David Dohan David So
研究问题:探索将语言模型用作一般适应性变异和交叉操作符的进化神经网络架构搜索(NAS)算法。
动机:虽然NAS仍然被证明对LM来说是一个过于困难的任务,但我们发现,通过结合进化提示工程和软提示调优的方法,我们称之为EvoPrompting,可以持续找到多样化且性能优秀的模型。
方法:首先在计算效率高的MNIST-1D数据集上进行演示,然后将其应用于CLRS算法推理基准上的图神经网络搜索,其中EvoPrompting能够设计出*新颖*的架构,在30个算法推理任务中的21个任务上超越了当前最先进的模型,同时保持了类似的模型大小。
效果:EvoPrompting成功地设计出了各种机器学习任务中准确且高效的神经网络架构,同时也足够通用,可以轻松适应其他任务,如神经网络设计等。
Structured State Space Models for In-Context Reinforcement Learning
Chris Lu Yannick Schroecker Albert Gu Emilio Parisotto Jakob Nicolaus Foerster Satinder Singh Feryal Behbahani
研究问题:如何改进S4模型以适应强化学习任务?
动机:现有的S4模型在长序列建模任务上表现优秀,且具有快速推理和可并行训练的优势,适合用于许多强化学习环境。
方法:对S4的变体进行修改,使其能够并行初始化和重置隐藏状态,从而处理强化学习任务。
效果:实验结果显示,修改后的模型在序列长度上运行速度比Transformers更快,且在简单的记忆任务上的表现优于RNN。在部分可观察环境中评估该模型,发现其性能优于RNN,同时运行速度提高五倍。此外,利用该模型处理长序列的能力,成功应对了随机抽样连续控制环境和环境观测与行动的线性投影组合的挑战性元学习任务。
Token-Scaled Logit Distillation for Ternary Weight Generative Language Models
Minsoo Kim Sihwa Lee Janghwan Lee Sukjin Hong Du-Seong Chang Wonyong Sung Jungwook Choi
研究问题:如何减小大型生成语言模型(GLMs)的模型大小以便于实际应用?
动机:大型GLMs在文本生成、理解和推理等任务上表现出色,但其大模型大小给实际部署带来了挑战。
方法:提出一种针对GLMs的新型知识蒸馏方法——token-scaled logit distillation,该方法可以防止过拟合,并从教师模型和真实数据中进行更优的学习。
效果:该方法首次评估了大规模GLMs的三进制权重量化感知训练,其困惑度降低不到1.0,并在常识问答、算术推理以及自然语言理解等任务上实现了更高的准确率。
Res-Tuning: A Flexible and Efficient Tuning Paradigm via Unbinding Tuner from Backbone
Zeyinzi Jiang Chaojie Mao Ziyuan Huang Ao Ma Yiliang Lv Yujun Shen Deli Zhao Jingren Zhou
研究问题:如何有效地将大型基础模型转移到下游应用?
动机:现有的方法通常将轻量级调谐器嵌入到主干网络中,其设计和学习都高度依赖于基础模型。
方法:提出了一种新的调优范式,称为Res-Tuning,它有意地将调谐器与主干网络分离。通过理论和实证证据,我们证明了流行的调优方法在我们的解耦公式下有等效的对应物,因此可以无缝地集成到我们的框架中。由于结构解耦,我们可以从网络架构中解放调谐器的设计,促进各种调优策略的灵活组合。
效果:在鉴别性和生成性任务上进行的大量实验表明,我们的方法在效力和效率方面优于现有的替代方案。
CoLA: Exploiting Compositional Structure for Automatic and Efficient Numerical Linear Algebra
Andres Potapczynski Marc Anton Finzi Geoff Pleiss Andrew Gordon Wilson
研究问题:本文旨在解决机器学习和科学领域中涉及的大规模线性代数问题,如特征值分解、线性系统求解、矩阵指数计算和迹估计等。
动机:在处理这些问题时,通常涉及到具有克罗内克、卷积、块对角、和、积结构的矩阵,而现有的方法往往无法有效处理这些结构。
方法:本文提出了一个名为CoLA(Compositional Linear Algebra)的简单但通用的框架,通过结合线性算子抽象和组合调度规则,自动构建内存和运行时高效的数值算法。
效果:CoLA可以加速许多代数运算,同时使得原型化矩阵结构和算法变得容易,为任何需要线性代数的计算任务提供了一个吸引人的替代工具。实验结果表明,CoLA在广泛的应用领域都表现出了良好的效果,包括偏微分方程、高斯过程、等变模型构建和无监督学习等。
Accurate Interpolation for Scattered Data through Hierarchical Residual Refinement
Shizhe Ding Boyang Xia Dongbo Bu
研究问题:如何利用神经网络进行更准确的插值计算。
动机:传统的数值算法在观察点上具有精确的零残差约束,而基于神经网络的插值方法在这些点上表现出非零残差。这些残差可以指导预测插值函数,但现有方法尚未利用这一点。
方法:提出分层插值网络(HINT),利用观察点的残差以分层的方式指导目标函数估计。HINT由几个顺序排列的轻量级插值块组成。第一个插值块估计目标函数的主要分量,后续的块使用前一个块的观察点残差预测残差分量。主要分量和残差分量累积形成最终的插值结果。此外,我们还假设更精细的残差预测需要在观察点上有一个更集中的注意力范围,因此在观察点和目标点之间的相关性建模中使用了分层局部约束。
效果:大量实验表明,HINT在各种数据集上的插值精度显著优于现有的插值算法,这突出了其在实际应用中的潜力。
ZipLM: Inference-Aware Structured Pruning of Language Models
Eldar Kurtic Elias Frantar Dan Alistarh
研究问题:大型语言模型的突破性性能伴随着巨大的计算开销和高昂的部署成本。
动机:本文提出了一种新的结构化压缩方法,称为ZipLM,以解决大型语言模型的计算和部署成本问题。
方法:ZipLM通过迭代识别并移除损失-运行时权衡最差的部分,实现模型压缩。这种方法不仅适用于特定的模型家族,如BERT(编码器)或GPT(解码器),而且在所有的设置中都能生成最先进的压缩模型。
效果:实验结果表明,ZipLM在满足指定推理规格的情况下,只需要一小部分计算成本,就能优于现有的蒸馏和剪枝技术,生成一系列更小、更快、更准确的模型。特别是在压缩GPT2时,ZipLM的性能超过了DistilGPT2,而且体积只有其60%,速度是其30%。
Efficient Meta Neural Heuristic for Multi-Objective Combinatorial Optimization
Jinbiao Chen Jiahai Wang Zizhen Zhang Zhiguang Cao Te Ye Siyuan Chen
研究问题:如何提高深度强化学习神经启发式在解决多目标组合优化问题上的学习效率和解决方案质量。
动机:目前的神经启发式在解决多目标组合优化问题上,仍存在学习效率低和解决方案质量不高的问题。
方法:提出一种高效的元神经启发式(EMNH),通过训练一个元模型,然后进行少量步骤的微调来解决相应的单目标子问题。具体包括利用部分共享架构的多任务模型实现元模型的并行学习以提高训练速度,以及设计一种关于权重向量的缩放对称采样方法以稳定训练。在微调过程中,提出了一种有效的分层方法系统地处理所有子问题。
效果:在多目标旅行商问题(MOTSP)、多目标车辆路径问题(MOCVRP)和多目标背包问题(MOKP)上的实验结果表明,EMNH在解决方案质量和学习效率上优于最先进的神经启发式,同时能够在极短的时间内产生与传统强启发式相当的解决方案。
Fast Projected Newton-like Method for Precision Matrix Estimation under Total Positivity
Jian-Feng CAI José Vinícius De Miranda Cardoso Daniel P. Palomar Jiaxi Ying
研究问题:本文旨在解决高维情况下,多变量二阶正定(MTP_2)的高斯分布中精度矩阵的估计问题。
动机:当前的算法在处理高维情况时,由于需要解决大量的非负二次规划或大规模线性系统问题,计算上具有挑战性。
方法:我们提出了一种基于二度量投影方法的新算法,该算法结合了精心设计的搜索方向和变量划分方案。
效果:实验结果表明,与目前最先进的方法相比,我们的新算法在计算效率上有显著的提高。
Unleashing the Full Potential of Product Quantization for Large-Scale Image Retrieval
Yu Liang Shiliang Zhang Kenli Li Xiaoyu Wang
研究问题:目前的深度学习哈希方法在大规模真实场景应用中存在计算成本高和准确度不高的问题。
动机:提出一种基于乘积量化(PQ)的新型深度学习哈希框架,以解决这些问题。
方法:使用基于softmax的可微分PQ分支来学习预定义类别的PQ码。该方法易于实现,无需进行大规模的矩阵运算,并能够学习出高度区分性的紧凑码。
效果:在多个大规模数据集上进行了验证,包括ImageNet100、ImageNet1K和Glint360K,实验结果证明了该方法的优越性。
Lookaround Optimizer: $k$ steps around, 1 step average
Jiangtao Zhang Shunyu Liu Jie Song Tongtian Zhu Zhengqi Xu Mingli Song
研究问题:如何通过联合训练和平均权重来提高深度学习网络的泛化能力。
动机:现有的平均权重方法通常只在一条训练轨迹上进行后处理,这大大降低了网络之间的多样性,从而影响了效果。
方法:提出Lookaround,一种简单而有效的基于SGD的优化器,通过在训练过程中迭代“周围”和“平均”两步,以获得具有更好泛化能力的平坦极小值。
效果:理论分析和大量实验表明,Lookaround在CIFAR和ImageNet等流行基准测试中,无论是对于CNN还是ViT,都明显优于现有的最佳方法。
Bringing regularized optimal transport to lightspeed: a splitting method adapted for GPUs
Jacob Lindbäck Zesen Wang Mikael Johansson
研究问题:提出一种有效的正则化最优传输算法。
动机:与以往方法相比,我们使用Douglas-Rachford分割技术来开发一个能够处理广泛类别的正则化器的高效求解器。
方法:该算法具有强大的全局收敛保证,低每次迭代成本,并可以利用GPU并行化,使其比现有技术在许多问题上更快。
效果:我们在几个应用中展示了其竞争力,包括领域适应和生成模型的学习。
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing
Yelysei Bondarenko Markus Nagel Tijmen Blankevoort
研究问题:如何减少大型神经网络的计算时间和内存消耗。
动机:现代转换器模型在激活中学习到的强大异常值使得它们难以量化,需要更高的比特宽度或使用不同的数字格式,额外的微调或其他解决方法来保持可接受的性能。
方法:提出了两种简单的(独立的)注意力机制修改 - _clipped softmax_和_gated attention_。
效果:通过使用这些方法预训练的模型,学习到的异常值显著减小,同时保持甚至提高了浮点任务性能,使我们可以对变换器进行全INT8量化,无需任何额外努力。这种方法在语言模型(BERT,OPT)和视觉变换器上都显示出了有效性。
LD2: Scalable Heterophilous Graph Neural Network with Decoupled Embeddings
Ningyi Liao Siqiang Luo Xiang Li Jieming Shi
研究问题:本文旨在解决异质图神经网络在大规模图上训练的可扩展性问题。
动机:现有的异质图神经网络模型在处理大规模图时,由于其高昂的计算成本和采用小批量方案的挑战,应用受到限制。
方法:我们提出了一种可扩展的模型LD2,通过解耦图传播和生成表达性嵌入,简化了学习过程。
效果:理论分析表明,LD2在训练中实现了最优的时间复杂度,内存占用与图规模无关。实验结果显示,我们的模型能够在大规模异质图上进行轻量级的小批量训练,速度提高了15倍,内存利用率高,同时保持与基线相当甚至更好的性能。
Direct Training of SNN using Local Zeroth Order Method
Bhaskar Mukhoty Velibor Bojkovic William de Vazelhes Xiaohan Zhao Giulia De Masi Huan Xiong Bin Gu
研究问题:如何解决脉冲神经网络训练中由于Heaviside函数导致的梯度信息丢失和非可微性问题?
动机:脉冲神经网络在现实世界任务中的能耗低,且准确率与传统人工神经网络相当,但其训练算法存在上述问题。
方法:提出使用零阶技术在局部或神经元级别进行脉冲神经网络的训练,并建立了它与现有替代方法的理论联系。
效果:通过在标准静态数据集和神经形态学数据集上进行实验验证,该方法比最先进的结果有所改进,并且可以提供3-4倍的总训练时间加速。代码可在\url{https://github.com/BhaskarMukhoty/LocalZO}获取。
Is This Loss Informative? Faster Text-to-Image Customization by Tracking Objective Dynamics
Anton Voronov Mikhail Khoroshikh Artem Babenko Max Ryabinin
研究问题:如何提高大型文本到图像模型在小数据集或新视觉概念上的快速适应性。
动机:目前许多高效的适应方法训练时间长,限制了其实际应用,减慢了实验速度,并消耗过多的GPU资源。
方法:通过观察发现大部分概念在早期阶段学习,后期质量不会提升,因此提出一种简单的提前停止标准,只需在所有训练迭代中对固定输入计算常规训练目标。
效果:在48个不同概念和三种个性化方法的稳定扩散实验中,该方法表现出竞争力,使适应速度提高8倍,质量没有显著下降。
Temporal Dynamic Quantization for Diffusion Models
Junhyuk So Jungwon Lee Daehyun Ahn Hyungjun Kim Eunhyeok Park
研究问题:扩散模型在视觉应用中表现出色,但其大模型和迭代生成导致的高存储和计算需求限制了其在移动设备上的使用。
动机:现有的量化技术由于扩散模型在激活时具有时间变化的独特属性,即使在8位精度下也难以保持性能。
方法:提出一种新的量化方法,根据时间步信息动态调整量化间隔,显著提高输出质量。这种方法在推理过程中没有计算开销,并且与后训练量化(PTQ)和量化感知训练(QAT)兼容。
效果:广泛的实验表明,该量化模型在不同配置下的输出质量有显著提高。
KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training
Thao Nguyen Truong Balazs Gerofi Edgar Josafat Martinez-Noriega François Trahay Mohamed Wahib
研究问题:如何提高深度神经网络训练的效率。
动机:通过隐藏训练中贡献度最小的样本,降低训练成本。
方法:利用训练过程中的损失和预测置信度信息,在不影响准确性的前提下,自适应地排除对整体学习过程贡献较小的样本。
效果:在图像分类和分割的多个大规模数据集和模型上进行实证研究,结果显示,相比替换抽样算法在大数据集上表现不佳,该方法可以将总训练时间减少高达22%,仅影响0.4%的准确性。
Variational Monte Carlo on a Budget — Fine-tuning pre-trained Neural Wavefunctions
Michael Scherbela Leon Gerard Philipp Grohs
研究问题:如何准确解决薛定谔方程是计算量子化学中的关键挑战。
动机:尽管基于深度学习的变分蒙特卡洛(DL-VMC)在准确性方面超过了传统方法,但其计算成本高昂。
方法:我们提出了一种预先使用自监督波函数优化在大量化学多样化分子上训练的DL-VMC模型。将此模型应用于新分子,无需任何优化即可获得优于现有方法如CCSD(T)-2Z的波函数和绝对能。
效果:通过结合改进的几何嵌入架构和现有的SE(3)等变模型来表示分子轨道,我们实现了完全端到端的机器学习模型。结合这种架构与几何的连续采样,我们比最先进的技术将零样本准确率提高了两个数量级。我们在各种测试系统上广泛评估了我们基础模型的准确性、可扩展性和局限性。
Operation-Level Early Stopping for Robustifying Differentiable NAS
Shen Jiang Zipeng Ji Guanghui Zhu Chunfeng Yuan Yihua Huang
研究问题:DARTS在各种机器学习任务中广泛应用,但其仍然存在鲁棒性问题,主要是跳跃连接的主导。
动机:现有的方法认为跳跃连接在优化中比其他参数化操作有额外的优势,并提出通过消除这些额外优势来减轻跳跃连接的主导地位。
方法:本文从简单直接的角度分析这个问题,并提出跳跃连接的主导地位是由于参数化操作过拟合训练数据,而架构参数在验证数据上进行训练,导致不良行为。基于这个观察,我们提出了操作级别的早期停止(OLES)方法来解决这个问题并增强DARTS,而不引入任何计算开销。
效果:大量的实验结果可以验证我们的假设和OLES的有效性。
Towards Data-Agnostic Pruning At Initialization: What Makes a Good Sparse Mask?
Hoang Pham The-Anh Ta Shiwei Liu Lichuan Xiang Dung D. Le Hongkai Wen Long Tran-Thanh
研究问题:本文旨在解决预训练剪枝(PaI)在训练效率和推理方面的问题,以及现有PaI方法在准确性和计算减少方面的不足。
动机:现有的PaI方法虽然优于随机剪枝,但其性能与后期训练剪枝相比仍有较大差距,且对PaI的理解尚不清晰。例如,最近的研究表明,现有的PaI方法只能找到良好的层稀疏性,而不能找到权重,因为发现的子网络对层随机掩码混洗和权重重新初始化具有惊人的抵抗力。
方法:本文从一个全新的角度——子网络的拓扑结构来研究PaI。具体来说,我们提出了一个原则性的框架,用有效路径数和有效节点数两个量来分析剪枝和初始化(PaI)方法的性能。这些数量使我们能够更全面地理解PaI方法,从而准确评估不同初始状态下的子网络。我们通过这个框架系统地分析了各种PaI方法的行为,并观察到了一个指导有效子网络构建的原则:在特定的稀疏度下,表现最佳的子网络总是在有效节点数和有效路径数之间保持良好的平衡。
效果:受此观察启发,我们提出了一种数据无关的新颖剪枝方法,通过解决多目标优化问题来实现。通过对不同架构和数据集进行大量实验,我们的结果表明,我们的方法优于最先进的PaI方法,同时能够发现具有更低推断FLOPs(高达3.4倍)的子网络。代码将完全发布。
DeepPCR: Parallelizing Sequential Operations in Neural Networks
Federico Danieli Miguel Sarabia Xavier Suau Pau Rodriguez Luca Zappella
研究问题:尽管并行化技术已经广泛应用于加速深度神经网络的推理和训练,但一些操作仍然以顺序方式执行,这在步骤数量增加时可能成为瓶颈。
动机:为了解决这个问题,本文提出了一种新的算法DeepPCR,它可以并行化通常的顺序操作,从而加快神经网络的推理和训练速度。
方法:DeepPCR将L步序列解释为特定方程组的解,并使用并行循环约简算法进行恢复,从而将计算顺序操作的复杂度从O(L)降低到O(log_2L)。
效果:通过在多层感知器中并行前向和后向传播,以及在扩散模型中进行训练,验证了该算法的理论低复杂度,并实现了高达30倍的前向和200倍的后向传播速度的提升。
CAP: Correlation-Aware Pruning for Highly-Accurate Sparse Vision Models
Denis Kuznedelev Eldar Kurtic Elias Frantar Dan Alistarh
研究问题:如何提高计算机视觉模型的压缩能力,以便于部署?
动机:尽管计算机视觉模型在ImageNet等经典基准测试上的准确性有了显著提高,但这些高精度模型难以部署,因为使用标准的剪枝技术进行压缩较为困难。
方法:引入关联感知剪枝器(CAP),这是一种新的非结构化剪枝框架,可以显著提高最先进架构的可压缩性。该方法基于两个技术进展:一个新的理论上合理的剪枝器,可以在剪枝过程中准确高效地处理复杂的权重相关性;以及一种高效的后压缩恢复微调过程。
效果:通过在几种现代视觉模型(如Vision Transformers、现代CNN和ViT-CNN混合模型)上进行大量实验,首次证明这些模型可以被剪枝到高稀疏度水平(例如≥75%),且对准确性的影响很小(≤1%相对下降)。这种方法也与结构化剪枝和量化兼容,可以在不损失准确性的情况下实现1.5到2.4倍的实际加速。为了进一步展示CAP的准确性和可扩展性,我们首次使用它来证明通过自监督技术训练的极其准确的大型视觉模型也可以被剪枝到适度的稀疏度,而准确性损失几乎可以忽略不计。
Facing Off World Model Backbones: RNNs, Transformers, and S4
Fei Deng Junyeong Park Sungjin Ahn
研究问题:本文旨在探索替代的世界模型基础,以提高长期记忆能力。
动机:现有的世界模型主要使用循环神经网络(RNNs)作为基础,但其内存容量有限。
方法:本文研究了变压器和结构化状态空间序列(S4)模型的有效性,并提出了第一个与S4及其变体兼容的并行可处理的世界模型S4WM。
效果:实验结果表明,S4WM在长期记忆方面优于变压器基础的世界模型,同时在训练和想象过程中表现出更高的效率。这些结果为开发更强大的MBRL代理铺平了道路。
Combinatorial Optimization with Policy Adaptation using Latent Space Search
Felix Chalumeau Shikha Surana Clément Bonnet Nathan Grinsztajn Arnu Pretorius Alexandre Laterre Thomas D Barrett
研究问题:设计有效的算法来解决组合优化问题,这是一个典型的NP-hard问题。
动机:尽管强化学习在许多领域取得了显著的进展,但它尚未取代工业解决方案。
方法:提出一种新的强化学习方法COMPASS,该方法通过连续的潜在空间参数化多样化和专业化策略的分布。
效果:在三个典型问题上进行评估,结果表明COMPASS的搜索策略在11个标准基准任务中的9个上优于最先进的方法,并在18个程序转换实例分布上表现更好。
Revisiting Adversarial Training for ImageNet: Architectures, Training and Generalization across Threat Models
Naman Deep Singh Francesco Croce Matthias Hein
研究问题:在ImageNet上,对抗训练对ViTs和ConvNeXts的影响如何?
动机:尽管对抗训练在ResNet架构和低分辨率数据集如CIFAR-10上已得到广泛研究,但在ImageNet上的研究却相对较少。鉴于最近关于Transformer是否比卷积网络更稳健的争论,我们重新审视了ImageNet上的对抗训练,比较了ViTs和ConvNeXts。
方法:通过大量的实验,我们发现在架构(主要是将PatchStem替换为ConvStem)和训练方案上的微小改变,对实现的稳健性有显著影响。这些改变不仅提高了在已知的l_∞威胁模型下的稳健性,而且更显著地改善了对未知的l_1/l_2攻击的泛化能力。
效果:我们的改进型ConvNeXt,即ConvNeXt + ConvStem,在不同的模型参数和FLOPs范围内,都产生了最稳健的l_∞模型,而我们的ViT + ConvStem则对未知的威胁模型具有最好的泛化能力。
Efficient Hyper-parameter Optimization with Cubic Regularization
Zhenqian Shen Hansi Yang Yong Li James Kwok quanming yao
研究问题:本文旨在解决在超参数优化中,由于性能度量指标的非可微性或超参数的不连续性导致无法获取超梯度的问题。
动机:现有的算法如贝叶斯优化和强化学习等,在处理这类问题时常常陷入局部最优解,表现不佳。
方法:提出使用三次正则化来加速收敛并避免鞍点。首先采用随机松弛法,无需超梯度即可获得梯度和海森矩阵信息;然后利用三次正则化来挖掘丰富的曲率信息。理论证明该方法能收敛到近似的二阶稳定点,并且在下层问题求解不完全准确时也能保证收敛。
效果:通过在合成数据和真实世界数据上的实验,验证了该方法的有效性。
Causes and Effects of Unanticipated Numerical Deviations in Neural Network Inference Frameworks
Alexander Schlögl Nora Hofer Rainer Böhme
研究问题:机器学习框架中的硬件特定优化可能导致推理结果的数值偏差。
动机:尽管使用固定的训练模型和输入数据,但在不同的平台上,推理结果并不一致,甚至在同一平台上也不具有确定性。
方法:在现实的端到端推理管道和孤立实验中,对卷积神经网络(CNN)进行研究,以了解这些数值偏差的原因。
效果:来自75个不同平台的结果表明,CPU上偏差的主要原因是不同的SIMD使用和GPU上运行时选择的卷积算法。我们还将原因和传播效应与ML模型的性质联系起来,并评估了可能的缓解措施。
Suggesting Variable Order for Cylindrical Algebraic Decomposition via Reinforcement Learning
Fuqi Jia Yuhang Dong Minghao Liu Pei Huang Feifei Ma Jian Zhang
研究问题:如何有效地确定多项式中的变量顺序以提高符号计算的效率。
动机:现有的确定变量顺序的方法主要依赖启发式算法,且学习型方法无法处理多样化的多项式集合。
方法:本文提出了两种结合图神经网络的强化学习方法来建议变量顺序,一种是与CAD集成的分支启发式方法,另一种是直接提供全排序的快速启发式方法。
效果:实验表明,这两种方法优于最先进的学习型启发式方法,并与最好的专家型启发式方法竞争。此外,这些模型表现出强大的泛化能力,即使在只训练了3变量随机数据集的情况下,也能在各种数据集上良好运行。
Training Transformers with 4-bit Integers
Haocheng Xi ChangHao Li Jianfei Chen Jun Zhu
研究问题:如何利用4位量化方法加速神经网络训练。
动机:现有的4位训练方法需要自定义数值格式,不被现代硬件支持。
方法:提出一种使用INT4算术实现矩阵乘法的Transformers训练方法,针对激活和梯度的特殊结构设计专用量化器,并采用哈达玛德量化器抑制前向传播中的异常值,通过比特分割和得分采样技术准确量化梯度。
效果:在自然语言理解、机器翻译和图像分类等多种任务上取得具有竞争力的准确性,比其他4位训练方法快2.2倍,平均可加快大型模型的训练速度17.8%。
Matrix Compression via Randomized Low Rank and Low Precision Factorization
Rajarshi Saha Varun Srivastava Mert Pilanci
研究问题:如何有效地存储和处理大型矩阵,特别是在其低秩结构的情况下。
动机:现代矩阵可能包含数十亿个元素,对计算资源和内存使用的需求非常大。然而,这些矩阵通常具有近似的低秩结构。
方法:提出一种算法,通过随机抽样矩阵列来获取矩阵范围空间的近似基,然后将构成这个基的向量量化,最后计算矩阵列在这个量化基上的近似投影,得到低秩和低精度因子分解。
效果:实验结果表明,该算法在图像压缩、图像和文本嵌入的最近邻分类以及压缩LlaMa-$7b$层等方面非常有效。可以达到每个矩阵坐标一比特的压缩比,同时超过或保持传统压缩技术的性能。
Evolving Connectivity for Recurrent Spiking Neural Networks
Guan Wang Yuhao Sun Sijie Cheng Sen Song
研究问题:如何提高循环脉冲神经网络(RSNNs)的训练效率和准确性,使其更好地模拟生物神经系统并应对复杂的动态模型。
动机:目前广泛使用的基于梯度的RSNN训练方法存在不准确和对神经形态硬件不友好的问题。
方法:提出了一种名为“进化连接”(EC)的框架,这是一种仅用于推理的RSNN训练方法。该框架将权重调整重新定义为参数化连接概率分布的搜索,并使用自然进化策略(NES)优化这些分布。
效果:在一系列标准的机器人运动任务上评估了EC,其性能与深度神经网络相当,甚至超过了基于梯度训练的RSNNs,解决了复杂的17-DoF人形任务。此外,相比直接演化参数,EC框架的效率提高了两到三倍。通过提供一个高性能且对硬件友好的替代方案,EC框架为进一步节能应用RSNNs和推动神经形态设备的发展奠定了基础。
Accelerated Training via Incrementally Growing Neural Networks using Variance Transfer and Learning Rate Adaptation
Xin Yuan Pedro Henrique Pamplona Savarese Michael Maire
研究问题:本文旨在开发一种有效增长神经网络的方法,设计参数化和优化策略以考虑其对训练动态的影响。
动机:现有的增长方法遵循简单的复制启发式或利用辅助梯度基局部优化,而我们设计了一个参数化方案,随着架构的演变,动态稳定权重、激活和梯度缩放,并保持网络的推理功能。
方法:我们提出了一个学习率适应机制,重新平衡了这些不同增长阶段逐渐消失的子网络的梯度贡献,解决了由于训练努力分配不平衡导致的优化困难。
效果:实验表明,我们的方法在准确性上与训练大型固定大小模型相当甚至更好,同时节省了大部分原始训练计算预算。我们还证明,这些收益转化为实际的墙钟训练速度提升。
PriorBand: Practical Hyperparameter Optimization in the Age of Deep Learning
Neeratyoy Mallik Eddie Bergman Carl Hvarfner Danny Stoll Maciej Janowski Marius Lindauer Luigi Nardi Frank Hutter
研究问题:深度学习管道的超参数对其下游性能至关重要,但优化这些超参数的成本对于现代深度学习来说往往难以承受。
动机:尽管已经开发了许多超参数优化(HPO)方法,但其产生的成本对现代深度学习来说仍然难以承受。因此,手动实验仍然是优化超参数的最常见方法,依赖于研究者的直觉、领域知识和廉价的初步探索。
方法:为了解决HPO算法与DL研究人员之间的这种不匹配,我们提出了PriorBand,这是一种专为DL设计的HPO算法,能够同时利用专家信念和廉价的代理任务。
效果:通过实证研究,我们在一系列DL基准测试中展示了PriorBand的效率,并展示了其在有信息量专家输入下的收益以及在面对糟糕专家信念时的鲁棒性。
Landscape Surrogate: Learning Decision Losses for Mathematical Optimization Under Partial Information
Arman Zharmagambetov Brandon Amos Aaron M Ferber Taoan Huang Bistra Dilkina Yuandong Tian
研究问题:如何通过学习优化器来加速处理部分可观察的优化问题,特别是在通用优化器表现不佳且无专家调优的情况下。
动机:最近的一些工作已经表明,当优化问题只部分可见或通用优化器在没有专家调优的情况下表现不佳时,学习集成优化可以取得良好的效果。
方法:提出使用平滑和可学习的“地形替代模型”作为$f\circ \mathbf{g}$的替代品。这种替代模型可以通过神经网络进行学习,其计算速度比求解器$\mathbf{g}$快,能在训练过程中提供密集而平滑的梯度,并能推广到未见过的问题上,而且可以通过交替优化进行有效学习。
效果:在合成问题(如最短路径和多维背包问题)以及真实世界问题(如投资组合优化)上进行了测试,取得了与最先进的基线相当甚至更好的目标值,同时减少了对$\mathbf{g}$的调用次数。特别地,对于计算成本高昂的高维问题,该方法优于现有方法。
Compressed Video Prompt Tuning
Bing Li Jiaxin Chen Xiuguo Bao Di Huang
研究问题:如何有效地将预训练的原始视频模型适应到压缩视频理解任务中。
动机:目前的压缩视频处理方法通常遵循资源消耗大的预训练和微调范式,没有充分利用压缩视频的特性,不适合广泛应用。
方法:提出一种基于提示的表示学习框架,即压缩视频提示微调(CVPT),通过重新参数化压缩模态(如运动矢量和残差)为条件提示并进行层状细化,以解决预训练和下游数据模态之间的不一致性问题。
效果:在HMDB-51、UCF-101和Something-Something v2等数据集上的广泛评估表明,CVPT显著优于最先进的方法,实现了准确性和效率的良好平衡。
Towards Optimal Caching and Model Selection for Large Model Inference
Banghua Zhu Ying Sheng Lianmin Zheng Clark Barrett Michael Jordan Jiantao Jiao
研究问题:大型语言模型(LLMs)和其他大型基础模型在推理过程中的资源消耗和延迟问题。
动机:解决大型语言模型在大规模部署中存在的资源需求高、推理延迟大的问题。
方法:采用缓存存储过往查询结果和使用模型选择器从模型集合中选择处理查询的方法来降低推理成本。
效果:通过结合GDSF或LEC等缓存算法和模型选择器,实验证明这种方法在离线和在线设置中都能达到最优效果,大大优于基线方法,能减少高达50倍的成本,并在真实数据集上将浮点运算次数减少了4.3倍,平均延迟减少了1.85倍。
$S^3$: Increasing GPU Utilization during Generative Inference for Higher Throughput
Yunho Jin Chun-Feng Wu David Brooks Gu-Yeon Wei
研究问题:大型语言模型(LLM)在生成文本时消耗大量内存,特别是保存序列中先前令牌信息的键/值(KV)缓存。
动机:当前的LLM服务框架由于无法预知输出序列的长度,会预留最大的序列长度给KV缓存,这限制了我们使用更小的批量大小,导致GPU利用率和吞吐量降低。
方法:我们提出了$S^3$方法,该方法预测输出序列的长度,根据预测结果安排生成查询以增加设备资源利用率和吞吐量,并处理误预测。
效果:我们的方法比那些假设输出序列长度最坏情况的系统实现了6.49倍的吞吐量。
Practical Differentially Private Hyperparameter Tuning with Subsampling
Antti Koskela Tejas Kulkarni
研究问题:如何降低差分隐私(DP)机器学习算法的超参数调整过程中的隐私泄露和计算成本。
动机:目前,使用敏感数据进行差分隐私超参数调整会通过超参数值泄露私人信息,且通常会导致隐私保护参数ε显著增加,并带来较大的计算负担。
方法:我们提出一种新方法,只使用敏感数据的随机子集进行超参数调整,并通过适当的外推将最优值扩展到更大的数据集。
效果:我们进行了Rényi差分隐私分析,实验表明,这种方法始终能比Papernot和Steinke的基线方法实现更好的隐私-效用权衡。
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers
LILI YU Daniel Simig Colin Flaherty Armen Aghajanyan Luke Zettlemoyer Mike Lewis
研究问题:现有的自回归转换器模型在处理长序列如高分辨率图像、播客、代码或书籍时表现不佳。
动机:提出一种名为Megabyte的多尺度解码器架构,以实现对超过一百万个字节的序列进行端到端可微建模。
方法:Megabyte将序列分割成补丁,并在补丁内使用局部子模型,在补丁之间使用全局模型。这实现了次二次自注意力,相同计算量的更大前馈层和改进的解码并行性。
效果:实验表明,Megabyte使字节级模型在长上下文语言建模上与子词模型具有竞争力,在ImageNet上实现最先进的密度估计,并从原始文件中对音频进行建模。这些结果确立了无分词自回归序列建模的可行性。
Laughing Hyena Distillery: Extracting Compact Recurrences From Convolutions
Stefano Massaroli Michael Poli Daniel Y Fu Hermann Kumbong Rom Nishijima Parnichkun David W. Romero Aman Timalsina Quinn McIntyre Beidi Chen Atri Rudra Ce Zhang Christopher Re Stefano Ermon Yoshua Bengio
研究问题:如何降低预训练长卷积架构在生成任务中的计算和内存成本。
动机:现有的长卷积序列模型在自动回归推理工作负载中需要对输入序列进行完整遍历,导致计算和内存成本较高。
方法:通过提取各卷积层的低维线性状态空间模型,并结合有理插值和模型降阶技术,降低每生成一个标记的计算和内存成本。同时,通过权重绑定过滤器通道到头部,提高预训练质量并减少需要蒸馏的过滤器数量。
效果:所提模型在参数为1.3B时,其吞吐量比Transformers高10倍,比Hyena高1.5倍,且在蒸馏后无任何质量损失。
MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining
Jacob Portes Alexander R Trott Sam Havens DANIEL KING Abhinav Venigalla Moin Nadeem Nikhil Sardana Daya Khudia Jonathan Frankle
研究问题:如何优化预训练BERT模型以降低训练成本并提高训练效率。
动机:尽管BERT模型在自然语言处理研究中被广泛使用,但由于训练成本高,许多研究者并未从零开始预训练自己的BERT模型。
方法:介绍了一种名为MosaicBERT的BERT风格编码器架构和训练方法,该方法经过实证优化,能快速进行预训练。这种高效的架构将FlashAttention、带有线性偏置的注意力(ALiBi)、门控线性单元(GLU)、一个用于动态删除填充令牌的模块以及低精度的LayerNorm集成到了经典的transformer编码器块中。训练方法包括30%的Masked Language Modeling(MLM)目标遮罩比率、bfloat16精度以及通过GPU吞吐量优化的词汇表大小等。
效果:当在C4数据集上从头开始预训练时,这个基础模型在8个A100 80 GB GPU上花费1.13小时,平均GLUE得分达到79.6,成本约为20美元。实验结果显示,与竞争性的BERT基础和大型模型相比,MosaicBERT基础和大型模型始终是Pareto最优的。这种实证上的预训练速度提升使得研究人员和工程师能够以低成本预训练自定义的BERT风格模型,而不是在现有的通用模型上进行微调。
Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time
Zichang Liu Aditya Desai Fangshuo Liao Weitao Wang Victor Xie Zhaozhuo Xu Anastasios Kyrillidis Anshumali Shrivastava
研究问题:大型语言模型的部署需要大量的内存资源,其中关键的内存瓶颈来自于生成过程中存储的关键-值嵌入(KV缓存)的大小。
动机:由于KV缓存的巨大尺寸对推理批处理大小产生了限制,这对高吞吐量的推理工作负载至关重要。因此,研究者提出了“剪刀手”系统,通过只保留有重大影响的键值来管理KV缓存。
方法:“剪刀手”系统根据观察到的注意力分数的持久性假设进行操作,即只有在某个步骤中产生重大影响的键值才会对未来的生成产生显著影响。该系统通过存储概率更高的关键令牌来管理KV缓存。
效果:实验证明,“剪刀手”系统可以在不影响模型质量的情况下,将KV缓存的推理内存使用量减少多达5倍。此外,当与通常用于压缩模型权重的4位量化技术结合使用时,“剪刀手”系统可以实现高达20倍的压缩。
Evolutionary Neural Architecture Search for Transformer in Knowledge Tracing
Shangshang Yang Xiaoshan Yu Ye Tian Xueming Yan Haiping Ma Xingyi Zhang
研究问题:现有的知识追踪模型在特征融合和全局上下文建模方面存在问题,无法准确捕捉学生的知识状态和遗忘行为。
动机:为了解决这些问题,本文提出了一种结合卷积操作的Transformer模型,并使用进化神经网络架构搜索方法自动选择输入特征和确定应用位置。
方法:通过添加卷积操作增强Transformer的局部上下文建模能力,同时使用进化算法探索搜索空间,寻找最优模型架构。
效果:实验结果表明,该方法在两个最大的教育数据集上取得了良好的效果,有效提高了知识追踪的准确性。
Searching for Optimal Per-Coordinate Step-sizes with Multidimensional Backtracking
Frederik Kunstner Victor S. Portella Mark Schmidt Nick Harvey
研究问题:如何自动调整平滑优化中的步长大小。
动机:现有的方法无法与理论上最优的每个坐标步长相竞争,需要寻找更好的对角预处理器。
方法:提出多维回溯,将回溯线搜索扩展到寻找平滑凸问题的好的对角预处理器。通过梯度相对于步长的大小(超梯度)产生分离超平面,使用切割平面方法进行搜索。
效果:多维回溯被证明与最好的对角预处理器具有竞争力,无需手动调整,计算效率高。
ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer
Haoran You Huihong Shi Yipin Guo Yingyan Celine Lin
研究问题:Transformer在视觉任务上表现出色,但其注意力机制和多层感知机由于稠密的乘法运算导致训练和推理成本高昂。
动机:为了解决这一问题,本文提出了一种混合乘法原语(如位左移和加法)对预训练的ViTs进行重参数化的新模型ShiftAddViT,旨在实现端到端的GPU推理加速,而无需从头开始训练。
方法:通过将查询和键映射到汉明空间的二进制代码,使用加性核将查询、键和值之间的所有MatMuls重新参数化。然后将剩余的MLP或线性层用移位核重新参数化。利用TVM实现并优化这些定制内核以在实际硬件部署到GPU上。
效果:这种重参数化的注意力保持了模型的准确性,但当应用于MLP时会导致准确性下降。为了结合两者的优点,进一步提出了一种新的混合专家(MoE)框架,通过将乘法或其原语作为专家(如乘法和移位),并设计一个新的延迟感知负载平衡损失来重新参数化MLP。这种损失有助于训练一个通用的路由器,根据其延迟为不同的专家分配动态数量的输入令牌。实验表明,ShiftAddViT在各种2D/3D Transformer视觉任务上具有很高的有效性,在GPU上实现了高达5.18倍的延迟降低和42.9%的能量节省,同时保持与原始或高效ViT相当的准确性。
Sparse Modular Activation for Efficient Sequence Modeling
Liliang Ren Yang Liu Shuohang Wang Yichong Xu Chenguang Zhu ChengXiang Zhai
研究问题:目前的混合模型在序列建模任务上表现出色,但现有的方法将注意力模块静态研究问题:目前的混合模型在序列建模任务上表现出色,但现有的方法将注意力模块静态且均匀地应用于输入序列的所有元素,导致质量-效率的次优权衡。
动机:为了解决这个问题,我们提出了稀疏模块化激活(SMA)机制,使神经网络能够以可微分的方式稀疏地动态激活子模块。
方法:我们设计了一种新的神经架构SeqBoat,它使用SMA稀疏激活基于SSM学习的状态表示的基于门控注意力单元(GAU)。通过限制GAU仅对激活的输入进行局部注意,SeqBoat可以实现理论上无限的关注范围和线性推理复杂度。
效果:实验结果表明,SeqBoat在长序列建模、语音分类和语言建模等多种任务上取得了新的最先进的结果,并通过学习的稀疏激活模式揭示了每个任务所需的注意力量。
QuadAttac$K$: A Quadratic Programming Approach to Learning Ordered Top-$K$ Adversarial Attacks
Thomas Paniagua Ryan Grainger Tianfu Wu
研究问题:深度神经网络的对抗性漏洞问题。
动机:现有的对抗性攻击方法主要针对学习分类任务,而本文提出的方法可以执行更激进的有序top-K攻击。
方法:提出了一种新颖且严谨的二次规划(QP)方法,名为QuadAttacK,用于学习有序top-K攻击,计算成本低。
效果:在ImageNet-1k分类任务中,使用ResNet-50、DenseNet-121和Vision Transformers进行测试,成功将成功的有序top-K攻击从K=10提升到K=20,同时保持了K=1的攻击成功率。
Dynamic Sparsity Is Channel-Level Sparsity Learner
Lu Yin Gen Li Meng Fang Li Shen Tianjin Huang Zhangyang Wang Vlado Menkovski Xiaolong Ma Mykola Pechenizkiy Shiwei Liu
研究问题:如何将非结构化动态稀疏性转化为GPU友好的通道级稀疏性,以提高模型的训练效率和推理速度。
动机:现有的动态稀疏训练方法主要针对非结构化稀疏模式,这在常见硬件上的支持有限,限制了其在实际应用中的使用。
方法:提出一种通道感知的动态稀疏(Chase)方法,通过在一次端到端的训练过程中逐步识别并移除稀疏通道,将非结构化稀疏性转化为通道级稀疏性。
效果:实验结果表明,Chase方法在不牺牲精度的情况下,使ResNet-50在ImageNet上的推理吞吐量提高了1.7倍。
Guiding The Last Layer in Federated Learning with Pre-Trained Models
Gwen Legate Nicolas Bernier Lucas Caccia Edouard Oyallon Eugene Belilovsky
研究问题:本文旨在探讨联邦学习中预训练模型的使用,并扩展至计算机视觉迁移学习问题。
动机:现有的联邦学习方法忽视了中心化学习设置中的大量高效迁移学习文献。
方法:我们首先观察到在许多情况下,简单地拟合一个线性分类头是有效的。然后,我们在联邦学习环境中展示了使用最近类均值(NCM)进行分类器拟合可以比现有方案更高效地完成,同时获得强大的性能。最后,我们证明了采用两步法获取分类器并微调模型可以在联邦环境中实现快速收敛和提高泛化能力。
效果:我们的方法是减少通信和计算成本的同时实现更好的模型性能的潜力。
The Grand Illusion: The Myth of Software Portability and Implications for ML Progress.
Fraser Mince Dzung Dinh Jonas Kgomo Neil Thompson Sara Hooker
研究问题:本文旨在量化主流机器学习软件框架在不同硬件类型上的可移植性。
动机:当前,机器学习硬件和软件的专业化趋势限制了探索不同系统的能力,可能阻碍创新。然而,这种可移植性的问题尚未得到充分研究。
方法:通过对主流机器学习框架在不同硬件类型上进行大规模测试,评估其关键功能的可移植性和性能下降程度。
效果:研究发现,当框架被移植到其他硬件时,可能会丧失超过40%的关键功能,即使功能可移植,其性能下降也可能非常严重。这表明专业化会引发探索成本,从而阻碍机器学习研究的创新。
StreamNet: Memory-Efficient Streaming Tiny Deep Learning Inference on the Microcontroller
Hong Sheng Zheng Yu-Yuan Liu Chen-Fong Hsu Tsung Tai Yeh
研究问题:如何在资源有限的微控制器单元(MCU)上部署TinyML模型。
动机:由于MCU的内存限制,如小的闪存、紧张的SRAM内存预算和慢速CPU性能,将TinyML模型部署到MCU上存在许多挑战。
方法:设计了一种名为StreamNet的模型,该模型使用流缓冲区来消除基于补丁的推理中的冗余计算。StreamNet使用1D和2D流处理,并提供一种参数选择算法,该算法可以在对MCU的SRAM内存空间需求最小的情况下自动提高基于补丁的推理的性能。
效果:在10个TinyML模型中,StreamNet-2D实现了比最先进的基于补丁的推理快7.3倍的速度,并节省了81%的MACs。
Block-State Transformers
Jonathan Pilault Mahan Fathi Orhan Firat Christopher Pal Pierre-Luc Bacon Ross Goroshin
研究问题:如何结合长短时记忆网络和状态空间模型,以提高语言模型的性能并适应更长的序列?
动机:尽管状态空间模型在处理需要长范围依赖的任务上表现出色,但在语言建模任务中的表现仍然落后于Transformer。
方法:提出了一种名为Block-State Transformer的混合层,内部结合了状态空间模型子层进行长范围的上下文理解,以及块Transformer子层进行序列的短时表示。
效果:实验结果显示,该模型在语言建模困惑度上优于类似的Transformer架构,并能适应更长的序列。此外,与块循环Transformer相比,块状态转换器在采用模型并行化时,其层级别的速度提高了十倍以上。
Binarized Neural Machine Translation
Yichi Zhang Ankush Garg Yuan Cao Lukasz Lew Behrooz Ghorbani Zhiru Zhang Orhan Firat
研究问题:如何利用低比特量化来扩展语言模型。
动机:语言模型的快速扩展推动了对低比特量化的研究。
方法:我们提出了一种新颖的适用于机器翻译的Transformer二值化技术(BMT),这是首次提出的。我们识别并解决了使用一位权重和激活时点积方差过大的问题。具体来说,BMT利用额外的LayerNorms和残差连接来提高二值化质量。在WMT数据集上的实验表明,一位权重的Transformer可以达到与浮点型相同的质量,而大小仅为其16分之一。一位激活会带来不同程度的质量下降,但通过提出的架构更改得到了缓解。我们还使用生产规模的翻译数据集进行了规模定律研究,结果表明,一位权重的Transformer在域内和域外设置中都能很好地扩展和泛化。我们将在JAX/Flax上开源实现。
效果:实验结果显示,该模型在语言建模困惑度上优于类似的Transformer架构,并能适应更长的序列。此外,与块循环Transformer相比,块状态转换器在采用模型并行化时,其层级别的速度提高了十倍以上。
FedNAR: Federated Optimization with Normalized Annealing Regularization
Junbo Li Ang Li Chong Tian Qirong Ho Eric Xing Hongyi Wang
研究问题:本文旨在解决联邦学习中权重衰减的选择问题,以及其对现有联邦学习算法收敛性的影响。
动机:在现代深度神经网络优化中,权重衰减是一种提高泛化性能的标准技术,也被广泛应用于联邦学习以防止局部客户端的过拟合。然而,权重衰减可能会引入与全局目标不同的优化目标,这在联邦学习中由于多次局部更新和异构数据分布而被进一步放大。
方法:本文提出了一种名为“联邦优化与归一化退火正则化”(FedNAR)的新算法,该算法通过同时裁剪梯度和权重衰减来调节每次更新的大小,可以无缝集成到任何现有的联邦学习算法中。
效果:实验结果表明,将FedNAR集成到现有的联邦学习算法中,可以加快收敛速度并提高模型准确性。此外,FedNAR在不同超参数配置下表现出韧性,即使在初始指定不最优的情况下,也能自我调整权重衰减,而传统联邦学习算法的准确性则会显著下降。
The Emergence of Essential Sparsity in Large Pre-trained Models: The Weights that Matter
AJAY KUMAR JAISWAL Shiwei Liu Tianlong Chen Zhangyang Wang
研究问题:本文旨在全面研究大型预训练视觉和语言转换器中的诱导稀疏模式。
动机:随着参数数量的爆炸性增长,由于重复的“训练-剪枝-再训练”迭代大规模剪枝(IMP)计算和内存瓶颈的增加,彩票假设(LTH)及其变体在精简模型方面已失去实用性。
方法:我们直接移除权重最小的权重,提出了存在本质稀疏性的概念,并定义了一个尖锐的下降点,超过这个点后,性能会随着稀疏度的增加而迅速下降。我们还发现,在BERT的预训练过程中,会出现突然稀疏化的现象。
效果:我们的观察结果表明,使用大量预训练数据训练的BERT在相对较少的参数中具有更好的知识浓缩能力。此外,我们发现自监督学习(SSL)目标比有监督学习(SL)目标更能引发更强的突发稀疏性。
Distributed Inference and Fine-tuning of Large Language Models Over The Internet
Alexander Borzunov Max Ryabinin Artem Chumachenko Dmitry Baranchuk Tim Dettmers Younes Belkada Pavel Samygin Colin Raffel
研究问题:大型语言模型(LLMs)在许多NLP任务中很有用,但随着模型规模的增大,需要更高端硬件的支持,使得大多数研究者无法使用。本研究探讨了低成本的LLM推理和微调方法,比较了本地和分布式策略。
动机:现有的50B+的大型语言模型需要高端硬件支持,使得大部分研究者无法使用。本研究旨在通过合并多个研究团队和志愿者的空闲计算资源来有效地运行大型语言模型。
方法:我们开发了特殊的容错推理算法和负载均衡协议,自动分配设备以最大化系统总吞吐量。我们在Petals系统中展示了这些算法,该系统在互联网上运行Llama 2(70B)和BLOOM(176B),比卸载速度快10倍。
效果:实验结果表明,我们的系统在模拟条件和跨越两个大洲的真实世界设置中表现良好。
Mechanic: A Learning Rate Tuner
Ashok Cutkosky Aaron Defazio Harsh Mehta
研究问题:本文旨在提出一种自动调整学习率比例因子和调度的技术,称为Mechanic。
动机:为了实现在线凸优化中类似的目标,最近的理论减少需要一种实用的实现方法。
方法:通过一系列深度学习任务,使用不同的批量大小、调度和基础优化算法,对Mechanic进行严格评估。
效果:实验表明,根据问题的具体情况,Mechanic可以非常接近、匹配甚至优于手动调整学习率。
H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models
Zhenyu Zhang Ying Sheng Tianyi Zhou Tianlong Chen Lianmin Zheng Ruisi Cai Zhao Song Yuandong Tian Christopher Re Clark Barrett Zhangyang Wang Beidi Chen
研究问题:大型语言模型在处理长内容生成任务时,由于存储大量的临时状态信息(KV缓存)导致内存占用过高。
动机:本文提出了一种新的KV缓存实现方法,通过减少存储在GPU内存中的临时状态信息,降低内存占用。
方法:作者发现一小部分令牌(称为Heavy Hitters)在计算注意力得分时贡献了大部分价值。基于此,提出了Heavy Hitter Oracle(H2O)策略,动态保留近期和Heavy Hitters令牌的平衡。将KV缓存淘汰问题形式化为动态子模问题,并证明了新算法的理论保证。
效果:在各种任务上验证了算法的准确性,与OPT、LLaMA和GPT-NeoX进行了比较。使用H2O策略实现了20%的Heavy Hitters,在OPT-6.7B和OPT-30B上,吞吐量分别提高了29倍、29倍和3倍,同时保持相同的批量大小,可以将延迟降低1.9倍。
Resetting the Optimizer in Deep RL: An Empirical Study
Kavosh Asadi Rasool Fakoor Shoham Sabach
研究问题:本文旨在解决深度强化学习中近似最优值函数的任务。
动机:在深度强化学习中,优化过程需要通过迭代解决一系列优化问题,而损失函数会随着迭代而变化。现有的解决方法主要是使用现代的随机梯度下降算法如Adam。但这些优化器会维护自己的内部参数,如梯度的一阶和二阶矩估计,并在时间上进行更新。然而,由于优化景观可能从一个迭代到下一个迭代发生任意变化,这可能会污染这些矩估计。因此,我们需要寻找一种方法来解决这个问题。
方法:我们提出了一个简单的想法,即在开始新的迭代时重置优化器的内部参数。为了验证这个想法,我们在Rainbow算法中使用了各种优化器进行实验。
效果:实验结果表明,这种简单的修改可以显著提高深度强化学习在Atari基准测试上的性能。
(Amplified) Banded Matrix Factorization: A unified approach to private training
Christopher A. Choquette-Choo Arun Ganesh Ryan McKenna Hugh Brendan McMahan J Keith Rush Abhradeep Guha Thakurta Zheng Xu
研究问题:如何利用矩阵分解机制在保护隐私的同时提高机器学习应用的性能?
动机:尽管矩阵分解机制已经在各种场景中显著提高了隐私-效用-计算权衡的最优性能,但在集中和联邦学习环境中,仍存在无法轻易应用矩阵分解机制或其它算法提供更好权衡的情况。
方法:通过构建带状矩阵(主对角线及其上下最多有b个非零带的下三角矩阵)的矩阵分解机制,无论在联邦学习还是集中学习环境中,都可以超越现有的最先进算法。
效果:在跨设备联邦学习中,这种方法可以与实际的联邦学习基础设施兼容,实现多参与的设备配置。在集中设置中,我们证明了带状矩阵可以获得与广泛使用的DP-SGD算法相同的隐私放大结果,但大多数情况下可以提供更好的性能。
Window-Based Distribution Shift Detection for Deep Neural Networks
Guy Bar-Shalom Yonatan Geifman Ran El-Yaniv
研究问题:如何检测和评估深度神经网络在生产环境中的预测质量,特别是在输入分布发生偏差时。
动机:由于恶意或良性的输入分布偏差可能对预测质量造成影响,因此需要监控和评估深度神经网络的预测质量。
方法:提出了一种基于选择性预测原理的深度神经网络分布偏差检测方法。该方法通过计算来自真实底层分布样本的紧密覆盖泛化边界来推导出。基于这个边界,检测器会在测试窗口中持续监控网络运行,并在检测到偏差时发出警报。
效果:该方法的性能与最先进的方法相当甚至更好,同时计算时间和空间复杂度大大降低。与之前的方法不同,该方法消除了对源分布大小的依赖性,使其适用于实际应用场景。
FAMO: Fast Adaptive Multitask Optimization
Bo Liu Yihao Feng Peter Stone qiang liu
研究问题:如何通过多任务学习(MTL)从多样化的数据中学习多个不同的任务,同时避免某些任务的严重欠优化。
动机:在实际应用中,对所有任务的平均损失应用梯度下降可能导致多任务性能不佳。
方法:提出快速自适应多任务优化(FAMO),一种动态加权方法,使用O(1)的空间和时间以平衡的方式降低任务损失。
效果:实验结果表明,FAMO在空间和计算效率上都有显著改进,同时其性能与最先进的梯度操纵技术相当或更好。
One-Pass Distribution Sketch for Measuring Data Heterogeneity in Federated Learning
Zichang Liu Zhaozhuo Xu Benjamin Coleman Anshumali Shrivastava
研究问题:如何在联邦学习中有效地解决数据异构性问题,特别是在高维空间中。
动机:联邦学习中的设备训练模型时,由于数据分布在不同的客户端,因此存在数据异构性问题。为了减轻其负面影响,需要对不同客户端的数据分布进行测量。
方法:本文提出了一种单次通过的分布草图来表示客户端数据分布。该草图算法只需要对客户端数据进行一次遍历,既节省时间又节省内存。我们还证明了两个分布草图之间的距离代表了它们对应分布的发散程度。
效果:实验表明,我们的分布草图提高了联邦学习训练中的客户端选择效率。同时,我们也展示了对于新加入的、带有未标记数据的客户端,我们的分布草图是一种有效的冷启动解决方案。
Augmenting Language Models with Long-Term Memory
Weizhi Wang Li Dong Hao Cheng Xiaodong Liu Xifeng Yan Jianfeng Gao Furu Wei
研究问题:现有的大型语言模型由于输入长度限制,只能处理固定大小的输入,无法利用丰富的长上下文信息。
动机:为了解决这个问题,我们提出了一种名为“Language Models Augmented with Long-Term Memory(LongMem)”的框架,使大型语言模型能够记忆长期的历史信息。
方法:我们设计了一种新颖的解耦网络架构,将原始的基础大型语言模型冻结作为记忆编码器,并设计了一个自适应的残差侧网络作为记忆检索器和阅读器。这种解耦的记忆设计可以方便地缓存和更新长期过去的上下文进行记忆检索,而不会遭受记忆陈旧的影响。通过增强记忆增强的适应训练,LongMem可以记住长期过去的上下文,并使用长期记忆进行语言建模。
效果:实验表明,我们的方法在挑战性的长期上下文建模基准测试ChapterBreak上优于强大的长期上下文模型,并在记忆增强的上下文学习方面显著提高了大型语言模型的性能。这些结果证明,我们提出的方法能有效帮助语言模型记忆和使用长篇内容。
Lockdown: Backdoor Defense for Federated Learning with Isolated Subspace Training
Tiansheng Huang Sihao Hu Ka-Ho Chow Fatih Ilhan Selim Furkan Tekin Ling Liu
研究问题:联邦学习(FL)由于其分布式计算特性,容易受到后门攻击。
动机:现有的防御解决方案通常需要更多的计算资源,这在资源有限的情境下限制了它们的实用性。
方法:本文提出了一种名为Lockdown的隔离子空间训练方法,以减轻后门攻击的影响。该方法包括三个关键步骤:修改训练协议以隔离不同客户端的训练子空间;利用随机性初始化隔离子空间,并进行子空间剪枝和恢复,以区分恶意和良性客户端的子空间;引入法定人数共识,通过清除恶意/虚拟参数来修复全局模型。
效果:实验结果表明,Lockdown在防御后门攻击方面具有优越和一致的性能,同时还能提高通信效率并降低模型复杂度,这对于资源有限的联邦学习场景至关重要。
A Unified Fast Gradient Clipping Framework for DP-SGD
Weiwei Kong Andres Munoz medina
研究问题:在差分隐私随机梯度下降(DP-SGD)算法中,计算大型输入批次中每个示例的梯度范数是一个众所周知的数字瓶颈。
动机:当DP-SGD的损失函数包含中间线性操作时,现有文献中的方法已经提出了适合快速范数计算的梯度分解方法。本文提出了一个框架,将上述方法推广到任意(可能是非线性的)中间操作。
方法:我们展示了对于某些操作,如全连接和嵌入层计算,可以通过使用我们框架的某些组件进一步减少现有分解的运行时和存储成本。
效果:初步数值实验表明了上述改进的显著效果。
Penguin: Parallel-Packed Homomorphic Encryption for Fast Graph Convolutional Network Inference
Ran Ran Nuo Xu Tao Liu Wei Wang Gang Quan Wujie Wen
研究问题:如何提高知识图谱中的信息实体在预训练语言模型中的应用,以增强语言表示。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,需要结合知识图谱来提升模型性能。
方法:采用大规模文本语料库和知识图谱联合训练ERNIE模型,充分利用词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model
Zirui Liu Guanchu Wang Shaochen Zhong Zhaozhuo Xu Daochen Zha Ruixiang Tang Zhimeng Jiang Kaixiong Zhou Vipin Chaudhary Shuai Xu Xia Hu
研究问题:大型预训练语言模型的微调过程中,由于参数众多,内存使用量大,导致训练困难。
动机:目前的研究主要通过减少网络中的可训练参数来解决这个问题,但实际上,训练过程中的主要内存瓶颈在于存储特征映射(激活值),这对梯度计算至关重要。
方法:提出了一种新的无偏估计器——sas,用于矩阵生成并降低方差,该估计器只需要存储子采样的激活值来计算梯度。
效果:实验证明,在调整变压器模型时,提出的估计器与现有的相比具有更低的方差。通过将线性操作替换为近似操作,可以实现高达2.7倍的峰值内存减少,且几乎不影响准确性,同时支持更大的批量大小。
Unsupervised Learning for Solving the Travelling Salesman Problem
Yimeng Min Yiwei Bai Carla P Gomes
研究问题:本文提出了一种解决旅行商问题(TSP)的无监督学习(UL)框架。
动机:现有的数据驱动TSP启发式方法存在参数和数据效率低下的问题。
方法:我们训练了一个图神经网络(GNN),使用替代损失函数。GNN输出一个热力图,表示每条边成为最优路径的概率。然后我们应用局部搜索基于热力图生成最终预测。
效果:实验结果表明,我们的UTSP框架在性能上超过了现有的数据驱动TSP启发式方法,同时模型参数和训练样本数量分别减少了约10%和0.2%。
LinGCN: Structural Linearized Graph Convolutional Network for Homomorphically Encrypted Inference
Hongwu Peng Ran Ran Yukui Luo Jiahui Zhao Shaoyi Huang Kiran Thorat Tong Geng Chenghong Wang Xiaolin Xu Wujie Wen Caiwen Ding
研究问题:如何优化图卷积网络(GCN)在云中的部署,以解决隐私保护和计算效率的问题。
动机:随着GCN模型规模的扩大,其在个人健康和金融系统等领域的应用已经超越了人类的表现。然而,GCN在云端的部署可能会对客户数据产生潜在的对抗性攻击,引发隐私问题。
方法:提出了一种名为LinGCN的框架,通过减少乘法深度和优化同态加密(HE)基于GCN推理的性能来解决这个问题。该框架主要包括三个部分:(1) 可微分的结构线性化算法;(2) 紧凑的节点级多项式替换策略;(3) 增强的HE解决方案。
效果:实验结果显示,LinGCN在延迟、准确性和可扩展性方面都优于CryptoGCN等解决方案,特别是在同态加密推理方面,LinGCN实现了14.2倍的延迟加速,同时保持了约75%的推理精度,显著降低了乘法深度。
Maximum Independent Set: Self-Training through Dynamic Programming
Lorenzo Brusca Lars C.P.M. Quaedvlieg Stratis Skoulakis Grigorios Chrysos Volkan Cevher
研究问题:本文旨在提出一种基于图神经网络(GNN)的框架,解决最大独立集(MIS)问题。
动机:受到动态规划(DP)的启发,设计了一种类似DP的递归算法,通过构建子图并预测具有较大MIS的子图,来求解MIS问题。
方法:首先构造两个较小的子图,然后预测其中一个具有较大MIS的子图,并将其用于下一次递归调用。通过比较不同图的MIS大小进行训练。
效果:实验结果表明,该方法在多个合成和真实世界数据集上优于现有方法。
Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
Mostafa Dehghani Basil Mustafa Josip Djolonga Jonathan Heek Matthias Minderer Mathilde Caron Andreas Peter Steiner Joan Puigcerver Robert Geirhos Ibrahim Alabdulmohsin Avital Oliver Piotr Padlewski Alexey A. Gritsenko Mario Lucic Neil Houlsby
研究问题:目前计算机视觉模型在处理图像前普遍选择固定分辨率的调整,但这种方法并不理想。
动机:为了解决这个问题,我们提出了一种名为NaViT(Native Resolution ViT)的方法,该方法利用Vision Transformer的灵活序列建模能力,可以处理任意分辨率和宽高比的输入。
方法:我们在训练过程中使用序列打包技术来处理任意分辨率和宽高比的输入,同时展示了对大规模有监督和对比性图像-文本预训练的训练效率提升。
效果:实验结果表明,NaViT在目标检测、图像和视频分类等标准任务上具有高效的迁移能力,并在鲁棒性和公平性基准测试上取得了更好的结果。此外,在推理时,输入分辨率的灵活性可以用来平滑地权衡测试时间和性能成本。我们认为NaViT标志着大多数计算机视觉模型使用的CNN设计的输入和模型管道的一种转变,并为ViTs提供了一个有前景的方向。
Every Parameter Matters: Ensuring the Convergence of Federated Learning with Dynamic Heterogeneous Models Reduction
Hanhan Zhou Tian Lan Guru Prasadh Venkataramani Wenbo Ding
研究问题:跨设备联邦学习(FL)面临重大挑战,由于资源瓶颈,低端客户端可能做出的独特贡献被排除在大型模型的训练之外。
动机:近期的研究努力集中在模型异构的FL上,通过从全局模型中提取缩小尺寸的模型并相应地应用于本地客户端。尽管取得了实证成功,但这种方法的收敛性一般理论保证仍然是一个开放的问题。
方法:本文提出了一个统一的框架,用于具有在线模型提取的异构FL算法,并首次提供了一般的收敛性分析。
效果:我们证明,在某些充分条件下,对于IID和非IID数据,这些算法都会收敛到标准FL的稳定点,适用于一般的平滑成本函数。此外,我们还引入了最小覆盖指数的概念以及模型缩减噪声,这两个因素将决定异构联邦学习的收敛性。因此,我们主张采用一种全面的方法,同时考虑这两个因素,以提高异构联邦学习的效率。
Fantastic Weights and How to Find Them: Where to Prune in Dynamic Sparse Training
Aleksandra Nowak Bram Grooten Decebal Constantin Mocanu Jacek Tabor
研究问题:动态稀疏训练(DST)是一种优化神经网络稀疏初始化的研究方法,通过在训练过程中调整网络的稀疏连接性。本研究旨在深入理解DST中剪枝准则对性能的影响。
动机:尽管已有研究表明,在特定条件下,DST能够超越密集模型,但关于剪枝准则对DST性能影响的研究却相对被忽视。
方法:设计并执行了广泛的实证分析,研究了各种剪枝准则对DST解决方案动态性的影响。
效果:研究发现,大多数研究方法得到的结果相似。但在低密度区域,最简单且最有效的技术——基于幅度的剪枝法则表现出明显的优势。
Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding
Zhejun Zhang Alexander Liniger Christos Sakaridis Fisher Yu Luc Van Gool
研究问题:如何提高自动驾驶系统中运动预测模块的实时性和可扩展性。
动机:现有的以代理为中心的方法在公共基准测试中表现出色,但当需要预测的代理数量增加时,计算开销大且可扩展性差。
方法:提出K-最近邻注意力与相对位姿编码(KNARPE),一种新的注意力机制,允许Transformers使用成对的相对表示。基于KNARPE,提出异构多线段Transformer与相对位姿编码(HPTR),一个允许在线推理期间异步令牌更新的分层框架。通过在代理之间共享上下文并重用未更改的上下文,该方法与场景为中心的方法一样高效,同时与最先进的以代理为中心的方法性能相当。
效果:在Waymo和Argoverse-2数据集上的实验表明,HPTR在不使用昂贵后处理或模型集成的端到端方法中表现优异。代码可在https://github.com/zhejz/HPTR获取。
SyncTREE: Fast Timing Analysis for Integrated Circuit Design through a Physics-informed Tree-based Graph Neural Network
Yuting Hu Jiajie Li Florian Klemme Gi-Joon Nam Tengfei Ma Hussam Amrouch Jinjun Xiong
研究问题:如何利用人工智能提高集成电路设计中复杂的分析过程,如时序、噪声和功耗等。
动机:随着集成电路设计的复杂性增加,传统的分析方法需要花费大量的时间和计算资源。而人工智能的发展为提高分析速度和准确性提供了新的可能性。
方法:本文提出了一种基于树的图神经网络SyncTREE,用于加速集成电路互连的时序分析。该方法结合了电路的结构特性和物理特性,并通过两遍信息传递(自底向上和自顶向下)进行图嵌入,使用树对比损失函数进行学习指导,以及采用闭式公式进行快速时序计算。
效果:实验结果表明,与传统的图神经网络模型相比,SyncTREE在延迟和压摆率方面的时序预测性能最佳,且与业界黄金数值分析结果一致。
Neural Combinatorial Optimization with Heavy Decoder: Toward Large Scale Generalization
Fu Luo Xi Lin Fei Liu Qingfu Zhang Zhenkun Wang
研究问题:现有的构造性神经组合优化方法无法解决大规模实例的问题,限制了其在现实世界应用中的有效性。
动机:为了解决这个问题,我们提出了一种新的轻编码器和重解码器(LEHD)模型,该模型具有强大的泛化能力。
方法:LEHD模型可以学习动态捕获所有可用节点之间的关系,有利于模型泛化到各种规模的问题。我们还为LEHD模型开发了一种数据高效的训练方案和灵活的解决方案构建机制。
效果:实验结果表明,LEHD模型可以在小规模问题实例上进行训练,生成接近最优的解决方案,适用于最多1000个节点的旅行商问题(TSP)和车辆路径问题(CVRP),并能很好地泛化以解决现实世界的TSPLib和CVRPLib问题。这些结果证实了我们的LEHD模型可以显著提高构造性神经组合优化的最新性能。
Self-Correcting Bayesian Optimization through Bayesian Active Learning
Carl Hvarfner Erik Orm Hellsten Frank Hutter Luigi Nardi
研究问题:本文旨在解决高斯过程在贝叶斯优化和主动学习中的超参数选择问题。
动机:当前的高斯过程模型对超参数的选择高度依赖,而现有文献中对此的研究较少。
方法:提出了两种明确优先考虑超参数学习的获取函数,一种是统计距离基础的主动学习(SAL),另一种是自我修正贝叶斯优化(SCoreBO)。
效果:实验结果表明,SAL和SCoreBO在贝叶斯优化和主动学习任务上均优于现有的最新方法,特别是在一些测试函数和传统基准测试上表现突出。
Sketchy: Memory-efficient Adaptive Regularization with Frequent Directions
Vladimir Feinberg Xinyi Chen Y. Jennifer Sun Rohan Anil Elad Hazan
研究问题:如何降低深度学习训练任务中矩阵预处理器的内存和计算需求?
动机:目前的自适应正则化方法虽然在许多任务上表现优秀,但对内存和运行时间的需求过大。我们发现深度训练任务中Kronecker因子化梯度协方差矩阵的谱集中在一个随训练而变化的主导特征空间上,这启发我们采用低秩草图法。
方法:我们提出了一种通用的方法,使用频繁方向(FD)草图来减少维护矩阵预处理器所需的内存和计算资源。
效果:在在线凸优化(OCO)设置中,我们在维度为d的情况下,仅使用dk个内存就实现了与全矩阵d^2内存相当的遗憾,误差主要来自梯度协方差的底部d-k个特征值。此外,我们将该方法扩展到Shampoo,结果证明,我们的方法在质量上与Shampoo和Adam相当,但跟踪二阶矩所需的内存仅为其子线性。
Expert load matters: operating networks at high accuracy and low manual effort
Sara Sangalli Ertunc Erdil Ender Konukoglu
研究问题:在关键应用的人类-AI协作系统中,如何设置模型置信度的操作点以决定何时将决策权交给人类专家。
动机:为了确保最小错误,用户需要根据模型的置信度设定操作点,对置信度低于操作点的样本进行人工分析,避免错误。
方法:提出了一种新的分类损失函数,该函数同时考虑了网络准确性和专家负载,通过最大化COC曲线下的面积来训练深度神经网络。
效果:实验结果表明,所提出的损失函数不仅提高了分类准确性,而且减少了交给人类的决策数量,实现了更好的异常样本检测和与现有损失函数相当的校准性能。
DFRD: Data-Free Robustness Distillation for Heterogeneous Federated Learning
Kangyang Luo Shuai Wang Yexuan Fu Xiang Li Yunshi Lan Ming Gao
研究问题:如何在数据异构和模型异构的联邦学习场景中学习一个鲁棒的全局模型。
动机:在保护用户隐私的同时,实现客户端之间的协作训练。
方法:提出一种名为DFRD的新联邦学习方法,通过在服务器端设置条件生成器来近似客户端上传的本地模型的训练空间,并系统地研究其真实性、可转移性和多样性的训练。
效果:通过大量的图像分类任务实验,证明DFRD相较于最先进的基线方法取得了显著的性能提升。
Neural Modulation for Flash Memory: An Unsupervised Learning Framework for Improved Reliability
Jonathan Zedaka Elisha Halperin Evgeny Blaichman Amit Berman
研究问题:近年来,NAND闪存的存储密度显著增加,使其成为现代电子设备的关键组件。然而,随着存储容量的增加,数据存储和检索中的错误可能性也在增加。
动机:日益增长的错误数量对系统设计师和工程师在NAND系统的表征、建模和优化方面提出了持续的挑战。
方法:我们提出了一种利用生成式和无监督机器学习方法进行错误建模和预防的新方法。我们构建并训练了一个神经网络调制器,该调制器将信息比特转化为NAND设备中每个存储单元的编程操作。
效果:我们的调制器专门针对闪存通道进行了优化,它提供了一种智能的写入方案,既减少了编程错误,又补偿了随时间的数据退化。具体来说,调制器基于一个带有嵌入在编码器和解码器之间的额外通道模型的自动编码器架构。经过优化以适应寿命终止工作点,学习到的内存系统在原始位错误率(RBER)上比现有技术提高了56%,并将闪存块的寿命延长了25%。
DeepACO: Neural-enhanced Ant Systems for Combinatorial Optimization
Haoran Ye Jiarui Wang Zhiguang Cao Helan Liang Yong Li
研究问题:本文旨在提出一种通用框架DeepACO,利用深度强化学习自动化蚁群优化(ACO)的启发式设计。
动机:传统的ACO算法需要专家设计知识驱动的启发式,而本文提出的DeepACO可以自动强化现有ACO算法的启发式测量,并在未来的应用中省去繁琐的手动设计。
方法:通过使用单个神经网络模型和一组超参数,DeepACO在八个组合优化问题上始终优于其对应的ACO算法。作为一种神经组合优化方法,DeepACO在经典的路由问题上表现优于或等同于特定问题的方法。
效果:实验结果表明,DeepACO作为神经增强的元启发式算法,在多个组合优化问题上表现出色,且代码已在GitHub上公开。
Robust low-rank training via approximate orthonormal constraints
Dayana Savostianova Emanuele Zangrando Gianluca Ceruti Francesco Tudisco
研究问题:设计一种能在减少深度学习资源需求的同时保持模型性能的剪枝技术。
动机:随着模型和数据规模的增大,如何降低深度学习的推理和训练成本成为一个重要的研究方向。
方法:利用低秩矩阵分解来表示网络权重,同时引入近似正交约束来保证网络的权重在低秩矩阵流形上,从而降低训练和推理成本。
效果:通过大量的数值证据和主要近似定理证明,所提出的鲁棒低秩网络能很好地逼近理想的全模型,且不会牺牲模型的准确性。
A Unified Solution for Privacy and Communication Efficiency in Vertical Federated Learning
Ganyu Wang Bin Gu Qingsong Zhang Xiang Li Boyu Wang Charles Ling
研究问题:如何在保证隐私安全和通信效率的同时,实现多方在不共享数据的情况下联合训练模型。
动机:现有的垂直联邦学习(VFL)方法在保护隐私和提高效率方面存在问题,需要进一步改进。
方法:提出一种级联混合优化方法,将零阶优化应用于客户端最关键的输出层,其他部分采用一阶优化。该方法在保持ZOO的隐私保护特性的同时,显著提高了收敛速度。
效果:实验结果表明,该方法在相同的隐私预算下实现了与高斯机制相似的效用,同时与最先进的通信高效VFL框架相比,通信成本显著降低。
Sparse Parameterization for Epitomic Dataset Distillation
Xing Wei Anjia Cao Funing Yang Zhiheng Ma
研究问题:如何有效地处理和训练大规模的深度学习数据集。
动机:大规模深度学习数据集的存储、预处理和训练存在重大挑战,需要更高效的方法进行处理。
方法:提出了一种稀疏参数化表观数据蒸馏(SPEED)框架,利用字典学习和稀疏编码的概念来提炼代表数据集关键信息的表观。
效果:实验结果表明,SPEED在处理高分辨率数据集方面具有优越性,并在多个基准测试和下游应用中实现了最先进的性能。该框架与各种数据集匹配方法兼容,通常能提高其性能。
Towards Efficient and Accurate Winograd Convolution via Full Quantization
Chen Tianqi Weixiang Xu Weihan Chen Peisong Wang Jian Cheng
研究问题:如何提高Winograd卷积的计算效率?
动机:尽管后训练量化(Post-Training Quantization)具有低计算成本的优点,但在Winograd卷积中应用时会导致严重的精度下降。此外,大多数现有方法仅对元素级乘法阶段进行量化,导致大量计算保持全精度。
方法:本文提出了PTQ-Aware Winograd (PAW),通过统一的优化目标协同优化不同的转换过程。同时,首次探索了更快的Winograd(tile size≥4)的全量化。进一步提出了一种硬件友好的方法——因子化比例量化(FSQ),可以有效平衡Winograd域中显著的范围差异。
效果:实验表明该方法的有效性,例如,使用8位量化和6的tile size,在ResNet-18和ResNet-34上,该方法比之前的Winograd PTQ方法分别提高了8.27%和5.38%的top-1准确率。
Understanding Neural Network Binarization with Forward and Backward Proximal Quantizers
Yiwei Lu Yaoliang Yu Xinlin Li Vahid Partovi Nia
研究问题:本文旨在从优化的角度探讨神经网络二值化中的标准方法BinaryConnect及其变体存在的问题。
动机:由于sign函数的导数在定义时为零,导致训练过程中冻结,因此通常使用身份或其他近似梯度替代方案来更新权重。虽然这种方法在实践中效果良好,但很大程度上是一种启发式或“训练技巧”。
方法:基于现有的ProxConnect理论(PC,BC的泛化),我们(1)为PC配备了不同的前向-后向量化器,得到了包含现有二值化技术作为特例的ProxConnect++(PC++);(2)推导出一种具有自动理论保证的合成前向-后向量化器的方法;(3)通过提出增强的二值化算法BNN++来阐述我们的理论;(4)对CNNs和视觉转换器进行图像分类实验,并实证证明BNN++在这些模型的二值化上通常能取得竞争性的结果。
效果:实验表明该方法的有效性,例如,使用8位量化和6的tile size,在ResNet-18和ResNet-34上,该方法比之前的Winograd PTQ方法分别提高了8.27%和5.38%的top-1准确率。
Model-enhanced Vector Index
Hailin Zhang Yujing Wang Qi Chen Ruiheng Chang Ting Zhang Ziming Miao Yingyan Hou Yang Ding Xupeng Miao Haonan Wang Bochen Pang Yuefeng Zhan Hao Sun Weiwei Deng Qi Zhang Fan Yang Xing Xie Mao Yang Bin CUI
研究问题:如何提高基于嵌入的检索方法的性能,同时保持可接受的服务效率。
动机:当前的深度检索解决方案虽然提供了更好的模型质量,但由于服务延迟不可接受且无法支持文档更新,因此受到限制。
方法:提出了一种模型增强向量索引(MEVI)的方法,该方法利用深度检索模型的可微分优势,同时保持理想的服务效率。MEVI使用残差量化(RQ)代码簿连接序列到序列的深度检索和基于嵌入的模型。为了大幅减少推理时间,我们首先在少量步骤中生成候选文档的一些语义虚拟集群ID,然后利用适应良好的嵌入向量进一步在候选虚拟集群中进行相关文档的细粒度搜索。
效果:实验结果表明,我们的模型在常用的学术基准MSMARCO Passage和Natural Questions上取得了更好的性能,与密集检索解决方案相比具有相当的服务延迟。
Learning Large-scale Neural Fields via Context Pruned Meta-Learning
Jihoon Tack Subin Kim Sihyun Yu Jaeho Lee Jinwoo Shin Jonathan Richard Schwarz
研究问题:本文旨在提出一种高效的优化型元学习技术,用于大规模神经场训练。
动机:通过自动在线选择上下文点实现显著的内存节省,提高模型质量。
方法:将每个学习步骤集中在数据子集上,该子集具有最高的预期即时模型质量改进,从而实现全局结构和高频细节的快速建模和优化。
效果:通过梯度重标定在元测试时间进行极高质量的神经场学习,并在明显缩短的优化过程中展示出优秀的重构能力。在多个数据集上进行广泛的实证评估,结果达到最先进的水平。
Reusing Pretrained Models by Multi-linear Operators for Efficient Training
Yu Pan Ye Yuan Yichun Yin Zenglin Xu Lifeng Shang Xin Jiang Qun Liu
研究问题:如何有效地利用预训练模型来加速大型模型的训练。
动机:现有的预训练模型初始化方法只映射部分权重,忽视了整个模型中的潜在相关性,导致信息不完整和训练效果不佳。
方法:提出一种新的方法,通过将目标模型的每个权重与预训练模型的所有权重进行线性关联,以增强加速能力。同时使用多线性运算符降低计算和空间复杂度。
效果:实验表明,该方法在资源需求可接受的情况下,可以显著提高训练速度,并在多个任务上取得优于现有方法的效果。
An Efficient and Robust Framework for Approximate Nearest Neighbor Search with Attribute Constraint
Mengzhao Wang Lingwei Lv Xiaoliang Xu Yuxiang Wang Qiang Yue Jiongkang Ni
研究问题:本文旨在提出一种高效且稳健的混合查询(HQ)处理框架,将近似最近邻搜索(ANN)与属性约束相结合。
动机:现有的方法将ANN和属性过滤分开处理,导致效率低下和准确性不高。
方法:本文提出的原生混合查询(NHQ)框架基于接近图(PG)构建复合索引,并应用联合剪枝进行HQ处理。我们还提出了两种新的可导航PGs(NPGs),通过优化边的选择和路由来提高整体ANN性能。
效果:我们在NHQ中实现了五种基于提出的NPGs和现有PGs的HQ方法,并在10个真实世界数据集上展示了它们优于最先进的方法(在保持相同准确性的情况下快315倍)。
MIMONets: Multiple-Input-Multiple-Output Neural Networks Exploiting Computation in Superposition
Nicolas Menet Michael Hersche Geethan Karunaratne Luca Benini Abu Sebastian Abbas Rahimi
研究问题:如何利用深度学习降低推理成本,同时处理多个输入?
动机:通过利用深度神经网络的大容量模型,我们试图通过叠加计算来降低推理成本。
方法:提出多输入多输出神经网络(MIMONets),能够一次处理多个输入。通过将各种深度神经网络架构与可变绑定机制相结合,MIMONets能够在一个固定宽度的分布式表示中以组合数据结构的形式表示任意数量的输入。然后,MIMONets适应非线性神经转换来整体处理该数据结构,从而实现与数据结构中叠加输入项数量几乎成比例的加速。在叠加处理后,解绑机制恢复每个感兴趣的转换输入。此外,MIMONets还提供了一种动态权衡精度和吞吐量的方法,即在单个固定参数集内即时按需切换一组精度-吞吐量操作点。
效果:我们将MIMONets的概念应用于CNN和Transformer架构,分别得到MIMOConv和MIMOFormer。实验评估表明,与WideResNet CNNs相比,MIMOConv在CIFAR10和CIFAR100上实现了约2-4倍的速度提升。同样,MIMOFormer可以在保持高精度的同时一次处理2-4个输入,平均准确率在[-1.07, -3.43]%范围内。最后,我们对MIMOFormer中的叠加通道之间的干扰提供了数学界限。
FedL2P: Federated Learning to Personalize
Royson Lee Minyoung Kim Da Li Xinchi Qiu Timothy Hospedales Ferenc Huszár Nicholas Donald Lane
研究问题:本文旨在解决联邦学习中如何为每个客户端学习个性化策略的问题。
动机:不同的联邦学习问题可能需要不同的个性化策略,且无法为所有客户端定义一种有效的通用个性化策略。
方法:通过使用元网络来推导每个客户端的批量归一化和学习率参数,然后通过联邦学习来学习这些元网络。
效果:实证结果显示,该框架在标签和特征转移情况下均优于一系列标准的手工制作个性化基线。
CamoPatch: An Evolutionary Strategy for Generating Camoflauged Adversarial Patches
Phoenix Neale Williams Ke Li
研究问题:深度神经网络(DNN)对对抗性示例的脆弱性引发了对其在安全关键应用中的可靠性的担忧。
动机:虽然现有的大多数方法通过修改整个图像来生成对抗性示例,但最近的研究表明,一种被称为对抗性补丁的实用替代方案更为有效。
方法:我们提出了一种新的构建对抗性补丁的方法,该方法通过使用一组半透明、RGB值的圆形来近似覆盖区域的外观,从而最小化补丁的可见性。
效果:我们的方法在ImageNet DNN分类器上实现了比最先进的方法更好或相当的性能,同时从原始图像到补丁的距离更小。这项工作进一步突显了DNN对对抗性补丁的脆弱性。
Boosting Learning for LDPC Codes to Improve the Error-Floor Performance
Hee-Youl Kwak Dae-Young Yun Yongjune Kim Sang-Hyo Kim Jong-Seon No
研究问题:如何消除低密度奇偶校验(LDPC)编码中的错误底现象,以实现极低的误码率和在需要超高度可靠性的场景中的部署。
动机:尽管LDPC编码由于其强大的错误纠正能力和简单的解码过程已经在通信系统中成功商业化,但其错误底现象仍然对实现极低的误码率和在需要超高度可靠性的场景中的部署构成了挑战。
方法:我们提出了训练神经网络最小和(NMS)解码器的方法来消除错误底效应。首先,通过利用集成网络的增强学习技术,我们将解码网络分为两个神经网络解码器,并训练后解码器专门用于前一个解码器未能纠正的未纠正单词。其次,为了解决训练中的梯度消失问题,我们引入了分块训练计划,即局部训练一组权重,同时重新训练前面的一组。最后,我们发现为未满足检查节点分配不同的权重可以有效地降低错误底,而只需要最少数量的权重。
效果:通过将这些训练方法应用于标准的LDPC编码,我们实现了比其他解码方法更好的错误底性能。所提出的NMS解码器仅通过新颖的训练方法进行优化,无需额外的模块,就可以集成到现有的LDPC解码器中,而不会带来额外的硬件成本。
Softmax Output Approximation for Activation Memory-Efficient Training of Attention-based Networks
Changhyeon Lee Seulki Lee
研究问题:如何减少训练基于注意力机制的网络(如Transformers)时的注意力模块的激活内存使用。
动机:大多数基于注意力的模型严重依赖softmax-based注意力模块,该模块通常占用网络的最大部分,因此,通过减少其内存需求可以有效降低训练成本。
方法:提出一种近似softmax输出的方法,仅存储一小部分用于反向传播所需的完整softmax输出,并将其余的softmax输出从内存中逐出。然后在反向传播过程中,对被逐出的softmax激活输出进行近似以组成梯度并进行模型训练。
效果:实验证明,该方法在机器翻译、文本分类和情感分析等任务上,可以将softmax-based注意力模块的激活内存使用减少高达84%(训练内存需求减少了6.2倍),同时保持了相当甚至更好的性能,例如分类准确率提高了5.4%。
A Computationally Efficient Sparsified Online Newton Method
Fnu Devvrit Sai Surya Duvvuri Rohan Anil Vineet Gupta Cho-Jui Hsieh Inderjit S Dhillon
研究问题:如何有效地训练大型模型的二次优化方法,以解决其大内存和计算需求的问题。
动机:尽管二次优化方法在深度神经网络训练的收敛性上有显著优势,但其巨大的内存和计算需求限制了其实用性。因此,需要可扩展的二次优化方法来有效训练大型模型。
方法:本文介绍了稀疏在线牛顿(SONew)方法,这是一种内存高效的二次算法,能产生稀疏而有效的预处理器。该方法源于对LogDet矩阵散度测量的创新应用;我们将它与稀疏性约束相结合,以最小化在线凸优化框架中的遗憾。
效果:在具有高达10亿参数的大型基准测试中,我们的方法比包括一阶方法在内的内存高效优化器快30%,验证性能相对提高3.4%,训练损失相对提高80%。此外,这种方法易于实现且并行化程度高,与一阶方法相当。
LambdaBeam: Neural Program Search with Higher-Order Functions and Lambdas
Kensen Shi Hanjun Dai Wen-Ding Li Kevin Ellis Charles Sutton
研究问题:本文旨在解决现有程序合成搜索方法无法处理迭代循环、高阶函数或lambda函数的问题。
动机:现有的神经网络模型在指导程序合成搜索方面效果显著,但无法处理复杂的函数结构,限制了其生成更通用的程序的能力。
方法:设计了一种名为LambdaBeam的搜索算法,该算法可以构造任意的lambda函数,并在给定的DSL中组合操作。通过创建lambda函数的语义向量表示,并训练一个神经网络策略网络来选择在搜索过程中要构造的lambda函数,并将它们作为参数传递给高阶函数以执行循环计算。
效果:实验结果表明,LambdaBeam在整数列表操作领域优于神经、符号和基于LLM的技术。
Accelerated On-Device Forward Neural Network Training with Module-Wise Descending Asynchronism
Xiaohan Zhao Hualin Zhang Zhouyuan Huo Bin Gu
研究问题:如何在边缘设备上优化或微调深度学习模型时克服内存限制。
动机:当前在边缘设备上训练深度模型主要依赖反向传播,但其高内存使用率需要重新评估其主导地位。
方法:本文提出了前向梯度下降(FGD)作为解决边缘设备学习中内存容量限制的潜在解决方案。为了克服FGD层间依赖性阻碍并行计算的问题,我们提出了异步FGD框架,该框架解耦了依赖关系,利用模块级陈旧参数,并最大化并行计算。
效果:我们在NVIDIA的AGX Orin等流行嵌入式设备上进行了实证评估,结果显示AsyncFGD减少了内存消耗,提高了硬件效率,为设备端学习提供了一种新的方法。
Block Low-Rank Preconditioner with Shared Basis for Stochastic Optimization
Jui-Nan Yen Sai Surya Duvvuri Inderjit S Dhillon Cho-Jui Hsieh
研究问题:如何降低自适应方法的计算复杂度和内存需求,以适应现代神经网络架构?
动机:现有的自适应方法虽然在各种任务上表现优秀,但其高计算复杂度和内存需求限制了其应用。
方法:提出一种通过将二阶矩矩阵的对角块近似为低秩矩阵,并强制每层内的块使用相同的基来降低时间和内存复杂度的方法。
效果:实验结果表明,该方法在深度自动编码器和变压器基准测试中的表现优于一阶方法,同时具有稍高的时间和内存使用率,但比其他二阶方法的性能更好或相当。
Reward Scale Robustness for Proximal Policy Optimization via DreamerV3 Tricks
Ryan Sullivan Akarsh Kumar Shengyi Huang John P Dickerson Joseph Suarez
研究问题:大多数强化学习方法严重依赖密集且良好归一化的环境奖励,DreamerV3提出了一种基于模型的方法,通过一些技巧来缓解这些限制,并在广泛的基准测试中实现了最先进的性能。
动机:DreamerV3的技巧在其他强化学习算法中是否具有通用性引起了讨论。本研究将这些技巧应用于PPO,并进行了首次此类实证研究。
方法:我们使用高质量的PPO参考实现,并在Arcade Learning Environment和DeepMind Control Suite上进行了超过10,000个A100小时的大量消融研究。
效果:实验表明,这些技巧并不能普遍超越PPO,但我们发现在某些情况下它们可以成功,并提供了关于实现技巧之间关系的洞察。特别是在有奖励裁剪的Atari游戏中,应用了这些技巧的PPO与未使用奖励裁剪的PPO相比表现相当出色。
Towards a fuller understanding of neurons with Clustered Compositional Explanations
Biagio La Rosa Leilani H. Gilpin Roberto Capobianco
研究问题:本文旨在解决预训练语言模型在知识驱动任务上的性能不足,以及现有解释方法的不完整性问题。
动机:预训练语言模型缺乏对结构化知识的利用,而现有的解释方法只能捕捉到神经元激活的最高频部分,缺乏完整性。
方法:本文提出了一种增强的语言表示模型ERNIE,该模型结合了大规模文本语料库和知识图谱进行联合训练,以充分利用词汇、句法和知识信息。同时,本文还提出了一种改进的解释方法——Clustered Compositional Explanations,该方法通过聚类和新的搜索策略来捕捉更广泛的神经元行为。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。Clustered Compositional Explanations能够提供更全面的解释,有助于深入理解神经网络的行为。
A Hierarchical Spatial Transformer for Massive Point Samples in Continuous Space
Wenchong He Zhe Jiang Tingsong Xiao Zelin Xu Shigang Chen Ronald Fick MILES D MEDINA Christine Angelini
研究问题:如何设计一种针对大规模连续空间点的Transformer模型。
动机:现有的Transformer模型大多针对序列、图像或视频以及图形数据,对于在环境科学、数值模拟和基于位置的服务等领域中常见的大规模连续空间点数据,设计合适的Transformer模型具有挑战性。
方法:提出一种新的分层空间Transformer模型,包括在四叉树层次结构中进行多分辨率表示学习和通过粗化近似进行有效空间注意力的方法。同时设计了一个不确定性量化分支,用于估计与输入特征噪声和点稀疏性相关的预测置信度。
效果:实验结果表明,该方法在预测精度上优于多个基线,并且该模型可以在一个NVIDIA A100 GPU上扩展到一百万点。
Accelerating Monte Carlo Tree Search with Probability Tree State Abstraction
Yangqing Fu Ming Sun Buqing Nie Yue Gao
研究问题:如何提高蒙特卡洛树搜索(MCTS)算法的搜索效率。
动机:MCTS-based 算法的计算复杂度受搜索空间大小影响,需要改进以提高效率。
方法:提出概率树状态抽象(PTSA)算法,定义了具有路径传递性的通用树状态抽象,并在聚合步骤中减少错误。
效果:通过将PTSA算法与先进的MCTS-based算法如Sampled MuZero和Gumbel MuZero集成,实验结果表明,该方法可以在不同任务上加速最先进的算法的训练过程,搜索空间减少10%-45%。
Mnemosyne: Learning to Train Transformers with Transformers
Deepali Jain Krzysztof Marcin Choromanski Kumar Avinava Dubey Sumeet Singh Vikas Sindhwani Tingnan Zhang Jie Tan
研究问题:提出一种新的可学习优化器类别,称为Mnemosyne。
动机:基于新型的时空低秩隐式注意力Transformers,Mnemosyne无需任何特定任务的优化器调优即可学习训练整个神经网络架构。
方法:通过简单的元训练策略,使用Mnemosyne成功训练了Transformers,同时其空间复杂度与手工设计的一阶对应物相当,允许其扩展到训练更大的参数集。
效果:实验结果表明,Mnemosyne在微调各种视觉Transformers、预训练BERT模型和软提示调整大型11B+ T5XXL模型方面表现优秀。
Leveraging Early-Stage Robustness in Diffusion Models for Efficient and High-Quality Image Synthesis
Yulhwa Kim Dongwon Jo Hyesung Jeon Taesu Kim Daehyun Ahn Hyungjun Kim jae-joon kim
研究问题:本文旨在解决扩散模型在图像生成中计算量大、采样速度慢的问题。
动机:扩散模型虽然具有优秀的图像生成能力,但其迭代噪声估计过程计算量大,采样速度慢,限制了其实用化实现。
方法:提出一种新方法,利用早期阶段扩散模型的鲁棒性来加速噪声估计网络。通过结合后训练量化(PTQ),在早期反向扩散过程中使用低比特激活,而在后期保持高比特激活。
效果:实验结果表明,该方法可以加速早期阶段的计算,同时不牺牲生成图像的质量。
An Efficient Dataset Condensation Plugin and Its Application to Continual Learning
Enneng Yang Li Shen Zhenyi Wang Tongliang Liu Guibing Guo
研究问题:如何将大型真实世界数据集压缩成小型合成数据集,以训练一个在后者上表现与前者相似的网络。
动机:现有的数据集压缩方法都忽视了自然图像的局部连接性和较低的固有维度,导致压缩效率低下。
方法:提出一种简单而有效的数据集压缩插件,该插件在低维流形中匹配原始和合成数据集。具体来说,我们的插件将原始图像压缩成两个低秩矩阵,而不是参数化的图像矩阵。
效果:实验证明,当将提出的插件与最先进的数据集压缩方法结合使用时,训练在合成数据上的网络性能显著优于传统的方法。此外,当我们将数据集压缩方法作为插件应用于持续学习任务时,我们发现该方法有效地缓解了有限内存缓冲区约束下旧任务的灾难性遗忘问题,并避免了原始数据隐私泄露的问题。
Efficient Low-rank Backpropagation for Vision Transformer Adaptation
Yuedong Yang Hung-Yueh Chiang Guihong Li Diana Marculescu Radu Marculescu
研究问题:如何有效地微调视觉转换器(ViT)以满足特定需求。
动机:视觉转换器的大规模模型在各种应用中进行有效微调是一个重大挑战,因为需要大量的计算资源来进行线性层中的矩阵乘法。
方法:提出一种新的低秩反向传播通过沃尔什-哈达玛变换(LBP-WHT)方法。该方法将梯度投影到低秩空间并进行反向传播,大大降低了调整ViT所需的计算量。
效果:通过在不同的模型和数据集上进行大量实验,证明了该方法的有效性。例如,当在CIFAR100上调整EfficientFormer-L1模型时,我们的LBP-WHT比最先进的基线实现了10.4%的更高准确率,同时减少了9 MFLOPs的计算量。
Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism
Chengcheng Wang Wei He Ying Nie Jianyuan Guo Chuanjian Liu Yunhe Wang Kai Han
研究问题:如何改进实时物体检测领域的主导模型YOLO系列,解决信息融合问题。
动机:尽管FPN和PANet缓解了信息融合问题,但现有的模型仍受其困扰。
方法:提出了一种先进的Gather-and-Distribute机制(GD),通过卷积和自注意力操作实现。设计了新的模型Gold-YOLO,增强了多尺度特征融合能力,实现了延迟和准确性之间的理想平衡。
效果:在COCO val2017数据集上,Gold-YOLO-N达到了39.9%的AP,在T4 GPU上达到了1030 FPS,比之前的最优模型YOLOv6-3.0-N在相同FPS下提高了2.4%。
Unbiased Compression Saves Communication in Distributed Optimization: When and How Much?
Yutong He Xinmeng Huang Kun Yuan
研究问题:本文探讨了在分布式优化中,无偏压缩是否能降低总通信成本。
动机:压缩可以减轻通信开销,但可能引入信息失真,减慢收敛速度并增加达到所需解决方案的通信轮次。因此,压缩是否真正降低了总通信成本尚不清楚。
方法:本文提出了第一个理论模型来描述分布式优化中的总通信成本,并展示了如何通过使用独立的无偏压缩器来降低总通信成本。
效果:研究发现,如果所有工人使用的压缩器都是独立的,那么无偏压缩就可以降低总通信成本。实验结果也支持这一发现。
On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective
Zeke Xie zhiqiang xu Jingzhao Zhang Issei Sato Masashi Sugiyama
研究问题:本文旨在解决预训练语言模型在利用知识图谱上的不足,以及现有权重衰减方法在训练深度神经网络时可能遇到的问题。
动机:现有的预训练语言模型没有充分利用知识图谱中的有信息量的实体来增强语言表示,同时,常用的权重衰减方法可能会导致训练过程中梯度范数过大的问题。
方法:本文提出了一种增强的语言表示模型ERNIE,通过结合大规模文本语料库和知识图谱进行联合训练,以充分利用词汇、句法和知识信息。同时,本文还提出了一种称为Scheduled Weight Decay(SWD)的新型权重衰减调度方法,能够根据梯度范数动态调整权重衰减强度,避免训练过程中梯度范数过大的问题。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。同时,SWD方法也能有效缓解梯度范数过大的问题,并在Adam优化器上取得了优于常规常量权重衰减策略的效果。
Two-Stage Predict+Optimize for MILPs with Unknown Parameters in Constraints
Xinyi HU Jasper C.H. Lee Jimmy H.M. Lee
研究问题:本文旨在解决优化问题中部分参数未知,需要通过相关特征进行预测的问题。
动机:现有的框架大多只能处理优化目标中的未知数,不能处理约束条件中的未知数。为此,作者提出了一种新的框架——两阶段预测+优化。
方法:该框架将优化问题的信息融入到训练过程中,以产生更好的预测结果。作者还给出了一个适用于所有混合整数线性规划的算法,极大地扩展了该框架的适用性。
效果:实验结果表明,该训练框架在所有经典和最先进的方法中具有优越的预测性能。
Model-Based Reparameterization Policy Gradient Methods: Theory and Practical Algorithms
Shenao Zhang Boyi Liu Zhaoran Wang Tuo Zhao
研究问题:模型基础的重参数化策略梯度方法在长期强化学习问题上可能会遇到优化困难,如梯度方差爆炸和收敛缓慢。
动机:尽管重参数化方法在深度生成模型等问题中被认为具有较低的梯度估计方差,但在长期强化学习问题上的表现却并不理想。为了解决这个问题,研究人员对模型基础的重参数化策略梯度方法进行了深入的理论分析。
方法:研究人员分析了模型基础的重参数化策略梯度方法的收敛性,并发现函数近似器的平滑度是影响梯度估计质量的主要因素。基于这一分析,他们提出了一种谱归一化方法来缓解由长模型展开引起的方差爆炸问题。
效果:实验结果表明,适当的归一化可以显著降低模型基础的重参数化策略梯度方法的梯度方差,从而提高其性能。这种方法的性能与其他梯度估计器(如似然比梯度估计器)相当或优于。
Train 'n Trade: Foundations of Parameter Markets
Tzu-Heng Huang Harit Vishwakarma Frederic Sala
研究问题:如何通过参数交易优化大型模型的训练,以降低训练成本和时间。
动机:现有的大型模型训练方式成本高且耗时,能否通过交易模型的组成部分(即权重集)来利用他人的专业知识。
方法:提出了一个包含市场运营所需基础设施的框架,研究了参数交换策略,并为代理提供了参数货币化的手段。
效果:实验表明,即使在竞争环境中,使用市场进行训练的代理也能相互获益,这为未来改善大规模模型训练提供了有用的范式。
Model-Based Control with Sparse Neural Dynamics
Ziang Liu Genggeng Zhou Jeff He Tobia Marcucci Li Fei-Fei Jiajun Wu Yunzhu Li
研究问题:如何有效地从观察中学习预测模型,以解决许多现实世界的规划和控制问题。
动机:当前的深度神经网络对于有效的规划过于无序,而现有的控制方法通常依赖于大量的采样或局部梯度下降。
方法:提出了一种新的集成模型学习和预测控制的框架,该框架适用于高效的优化算法。具体来说,首先使用ReLU神经网络对系统动态进行建模,然后通过移除冗余的神经元逐渐稀疏化模型,同时保持预测精度的最小损失。这种离散稀疏过程被近似为一个连续问题,从而实现了模型架构和权重参数的端到端优化。稀疏后的模型随后被混合整数预测控制器使用,该控制器将神经元激活表示为二进制变量,并采用有效的分支定界算法。
效果:实验表明,尽管进行了激进的稀疏化,但该框架仍能提供比现有最先进的方法更好的闭环性能。
Birder: Communication-Efficient 1-bit Adaptive Optimizer for Practical Distributed DNN Training
Hanyang Peng Shuang Qin Yue Yu Jin Wang Hui Wang Ge Li
研究问题:如何缓解分布式学习中的通信瓶颈?
动机:现有的梯度压缩算法在理论上具有低通信复杂度,但在实际应用中,其性能和效率无法与未压缩的SGD-momentum和自适应优化器(如Adam)相比。
方法:提出一种名为Birder的新型1-bit自适应优化器,该优化器的量化计算简单且轻量,无需在开始阶段进行未压缩版本的预热。同时设计了分层1-bit All-Reduce以进一步降低通信量。
效果:实验证明,Birder在训练ResNet-50和BERT-Base时,其推理性能与未压缩的SGDM/Adam相当,训练速度分别提高了2.5倍和6.3倍。
Fast Rank-1 Lattice Targeted Sampling for Black-box Optimization
Yueming Lyu
研究问题:如何提高高维问题的查询效率?
动机:现有的黑箱优化方法在处理高维问题时,查询效率仍然是一个挑战。
方法:本文提出了一种新的Rank-1 Lattice Targeted Sampling(RLTS)技术,通过随机rank-1 lattice Quasi-Monte Carlo进行快速局部精确的高斯过程训练和推理,并开发了一种快速坐标搜索方法,以提高查询效率。
效果:实验结果表明,RLTS技术在解决高维问题上的查询效率优于贝叶斯优化,并在大型语言模型的黑色盒子提示微调中表现出良好的性能。
Making Scalable Meta Learning Practical
Sang Keun Choe Sanket Vaibhav Mehta Hwijeen Ahn Willie Neiswanger Pengtao Xie Emma Strubell Eric Xing
研究问题:元学习(即学习如何学习)虽然在机器学习程序中具有学习不同归纳偏差的灵活性,但长期以来一直被认为由于其巨大的计算/内存成本、训练不稳定性以及缺乏有效的分布式训练支持而难以扩展。
动机:本文旨在通过引入SAMA来解决元学习的可扩展性问题,该方法结合了隐式微分算法和系统的进步。
方法:SAMA设计用于灵活地支持元学习程序基础级别的各种自适应优化器,同时通过避免显式计算二阶梯度信息并利用为一阶梯度实现的高效分布式训练技术来减少计算负担。
效果:在多个大规模元学习基准测试中,与其他基线元学习算法相比,SAMA在单/多GPU设置上分别实现了高达1.7/4.8倍的吞吐量增加和2.0/3.8倍的内存消耗减少。此外,我们还表明,基于SAMA的数据优化可以持续提高BERT和RoBERTa大型语言模型的文本分类准确性,并在图像分类任务的小/大规模数据剪枝方面实现了最先进的结果,展示了可扩展元学习在语言和视觉领域的实际应用性。
Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing
Wei Dong Dawei Yan Zhijun Lin Peng Wang
研究问题:如何有效地将大型预训练模型适应到下游任务中。
动机:现有的解决方案主要集中在设计轻量级的适配器及其与预训练模型的交互上,目标是最小化需要更新的参数数量。
方法:提出了一种新的适配器重构成(ARC)策略,考虑了适应性参数的可重用性,并引入了参数共享方案。具体来说,利用对称的下/上投影来构造瓶颈操作,这些操作在各层之间共享。通过学习低维重缩放系数,可以有效地重构适应各层的适配器。
效果:实验结果表明,该方法在24个图像分类下游任务上取得了令人信服的迁移学习性能,同时减少了参数数量。
DoWG Unleashed: An Efficient Universal Parameter-Free Gradient Descent Method
Ahmed Khaled Konstantin Mishchenko Chi Jin
研究问题:本文提出了一种易于实现的无参数基于梯度的优化器——DoWG(Distance over Weighted Gradients)。
动机:现有的优化算法需要手动调整参数,而DoWG无需任何参数即可达到最优的收敛速度。
方法:DoWG通过维护基于距离的加权运行平均值来实现其效果,这是实现所需属性的关键。
效果:实验证明,DoWG在训练中处于稳定的边缘,并在实际的机器学习任务上验证了其有效性。
Stable and low-precision training for large-scale vision-language models
Mitchell Wortsman Tim Dettmers Luke Zettlemoyer Ari S. Morcos Ali Farhadi Ludwig Schmidt
研究问题:如何加速和稳定大型语言-视觉模型的训练。
动机:为了解决大型语言-视觉模型训练速度慢且不稳定的问题。
方法:提出了SwitchBack线性层用于int8量化训练,可以提供13%-25%的速度提升,同时在性能上与bfloat16训练相匹配。同时,通过分析损失尖峰发现它们通常在AdamW二阶估计器低估平方梯度后的1-8次迭代中出现,因此推荐使用AdamW-Adafactor混合训练方法以避免损失尖峰。
效果:实验结果表明,SwitchBack对于float8训练非常有效,而标准技术在网络训练和初始化时也取得了成功,如果大型特征的幅值被抑制,我们通过零初始化实现这一点。 AdamW-Adafactor混合训练方法在训练CLIP ViT-Huge模型时避免了损失尖峰,并在我们测试的规模上超越了梯度裁剪。
AdANNS: A Framework for Adaptive Semantic Search
Aniket Rege Aditya Kusupati Sharan Ranjit S Alan Fan Qingqing Cao Sham M. Kakade Prateek Jain Ali Farhadi
研究问题:本文旨在解决网络搜索系统中的精确度与计算成本之间的权衡问题。
动机:目前的搜索系统通常使用刚性、高维向量来表示查询和数据点,这会导致计算成本高昂。
方法:本文提出了一种新的搜索设计框架AdANNS,该框架利用了俄罗斯套娃表示法的灵活性,在不同的搜索阶段使用不同容量的适应性表示,以实现更好的精度-计算权衡。
效果:实验结果表明,AdANNS在ImageNet检索和自然问题查询等任务上,不仅提高了精度,而且大大减少了计算时间,实现了更高的效率。
Clustering the Sketch: Dynamic Compression for Embedding Tables
Henry Tsang Thomas Dybdahl Ahle
研究问题:如何有效地在推荐系统中处理大规模的分类特征嵌入表?
动机:随着推荐系统的发展,分类特征嵌入表的规模越来越大,需要开发新的方法来适应内存限制,甚至在训练过程中也需要进行处理。
方法:我们提出了集群化复合嵌入(CCE)方法,该方法将基于聚类的压缩(如量化到码本)与动态方法(如哈希技巧和复合嵌入)相结合[Shi等人,2020]。
效果:实验证明,CCE实现了两种方法的最佳结合:即具有基于码本的量化的高压缩率,又具有基于哈希的方法的动态性,因此可以在训练过程中使用。理论上,我们证明了CCE一定会收敛到最优码本,并给出了所需的迭代次数的紧界。
Your representations are in the network: composable and parallel adaptation for large scale models
Yonatan Dukler Alessandro Achille Hao Yang Varsha Vivek Luca Zancato Benjamin Bowman Avinash Ravichandran Charless Fowlkes Ashwin Swaminathan Stefano Soatto
研究问题:如何有效地将大型基础模型进行迁移学习,以适应新的任务?
动机:目前的迁移学习方法往往需要大量的计算资源和时间,且难以同时处理多个下游任务。
方法:提出一种名为InCA(自省交叉注意力)的框架,通过在基础模型的中间激活层上学习轻量级的交叉注意力模块,以快速适应新的任务。
效果:实验结果表明,InCA能够在训练过程中高效并行地训练多个适配器,并且在11个具有挑战性的下游分类任务上,单个适配器就能达到全微调的准确性。此外,与其他形式的参数高效适应相比,InCA的独立性使其在大规模模型上具有更好的计算性能。
Mobilizing Personalized Federated Learning in Infrastructure-Less and Heterogeneous Environments via Random Walk Stochastic ADMM
Ziba Parsons Fei Dou Houyi Du Zheng Song Jin Lu
研究问题:本文探讨了在无基础设施的环境中,如何在实际场景中实现联邦学习(FL),这些场景中的孤立节点数据异构,只能通过无线链接连接到服务器。
动机:为了克服这些挑战,我们提出了一种新的个性化移动FL方法,旨在促进移动性和韧性。
方法:我们开发了一种名为随机游走随机交替方向乘子法(RWSADMM)的新颖优化算法。RWSADMM利用服务器向客户端的随机移动,并根据硬性不等式约束而不是要求共识更新或通过正则化方法引入偏差,来制定其相邻客户端之间的局部邻近性。
效果:我们的理论研究和实证结果表明,与基线方法相比,RWSADMM实现了显著的快速收敛和准确性提高,同时减少了通信成本并提高了可扩展性。
Sparsity-Preserving Differentially Private Training of Large Embedding Models
Badih Ghazi Yangsibo Huang Pritish Kamath Ravi Kumar Pasin Manurangsi Amer Sinha Chiyuan Zhang
研究问题:如何在保护用户数据隐私的同时,提高大型嵌入模型的训练效率。
动机:随着大型嵌入模型在推荐系统和语言应用中的使用增加,对用户数据隐私的关注也在增加。
方法:提出了两种新的算法DP-FEST和DP-AdaFEST,它们在大型嵌入模型的私人训练过程中保持梯度稀疏性。
效果:这两种新算法在基准真实世界数据集上实现了显著的梯度大小减少(10^6倍),同时保持了相当的准确性水平。
An Inverse Scaling Law for CLIP Training
Xianhang Li Zeyu Wang Cihang Xie
研究问题:如何降低训练CLIP模型的计算成本,以推动其在计算机视觉领域的广泛应用。
动机:CLIP模型的训练成本高,限制了其进一步的研究和应用。
方法:通过研究发现,图像/文本编码器越大,训练中可应用的图像/文本令牌长度越短。通过减少图像/文本令牌长度的策略,可以成功训练CLIP模型。
效果:使用8个A100 GPUs,在2-4天内,CLIP模型在ImageNet-1k上的零样本准确率分别达到63.2%、67.8%和69.3%。当使用G/14时,ImageNet-1k的零样本准确率达到了83.0%,比OpenCLIP快约33倍。
Worst-case Performance of Popular Approximate Nearest Neighbor Search Implementations: Guarantees and Limitations
Piotr Indyk Haike Xu
研究问题:本文旨在研究图基近似最近邻搜索算法的最坏情况性能,如HNSW、NSG和DiskANN。
动机:尽管图基近似最近邻搜索算法在实践中是处理大型数据集的流行且强大的工具,但其在理论上的保证有限。
方法:对最新的图基近似最近邻搜索算法进行研究,包括DiskANN的“慢速预处理”版本,HNSW和NSG等。对于DiskANN,证明了其“慢速预处理”版本在数据集的“内在”维度有界的情况下,能以常数近似比和多项式对数查询时间支持近似最近邻搜索查询。
效果:对于其他数据结构变体,包括DiskANN的“快速预处理”版本、HNSW和NSG,我们展示了一系列实例,在这些实例上,达到“合理”精度所需的查询时间与实例大小呈线性关系。例如,对于DiskANN,我们表明查询过程在遇到查询的前5个最近邻之前至少需要0.1n步。
FedGCN: Convergence-Communication Tradeoffs in Federated Training of Graph Convolutional Networks
Yuhang Yao Weizhao Jin Srivatsan Ravi Carlee Joe-Wong
研究问题:如何在多个客户端之间训练图模型,以减少通信开销并保持数据隐私?
动机:由于图的大小和数据生成地的法规,分布式图模型训练方法越来越受欢迎。然而,客户端之间的交叉边缘自然存在,这会导致显著的通信开销或训练信息的损失。
方法:我们提出了联邦图卷积网络(FedGCN)算法,该算法使用联邦学习来训练图卷积网络(GCN)模型进行半监督节点分类,具有快速收敛和少量通信的特点。
效果:与每轮训练都需要在客户端之间进行额外通信的现有方法相比,FedGCN客户端只需与中央服务器进行一次预训练步骤的通信,大大减少了通信成本,并允许使用同态加密进一步提高隐私性。实验结果表明,我们的FedGCN算法在平均速度上快51.7%,并且至少减少了100倍的通信量,同时实现了更好的模型准确性。
Cheaply Estimating Inference Efficiency Metrics for Autoregressive Transformer Models
Deepak Narayanan Keshav Santhanam Peter Henderson Rishi Bommasani Tony Lee Percy Liang
研究问题:大型语言模型(LLMs)虽然能力强大,但计算成本高昂。如何量化推理效率和模型能力之间的基本权衡是一个挑战。
动机:现有的评估方法无法公平地比较不同供应商提供的模型的推理效率,因为模型供应商可以实施与模型无关的软件和硬件优化,而共享基础设施会导致性能竞争。
方法:我们提出了一种新的推理效率指标——理想化运行时,它可以公平地比较在无性能竞争的均匀硬件和软件上运行的模型。我们还提出了一种成本模型,可以有效地估计自回归Transformer模型的理想化运行时。
效果:我们使用这些指标比较了2022年开发的10个LLMs,首次分析了推理效率-能力权衡。我们的分析发现,某些API的优越推理运行时性能通常是API内优化的结果,而不是底层模型的结果。
CD-GraB: Coordinating Distributed Example Orders for Provably Accelerated Training
A. Feder Cooper Wentao Guo Khiem Pham Tiancheng Yuan Charlie F. Ruan Yucheng Lu Christopher De Sa
研究问题:如何将有信息量的实体融入预训练语言模型以增强其性能?
动机:目前的预训练语言模型缺乏对结构化知识的利用,而知识图谱中的实体可以提供丰富的外部知识来提升语言理解。
方法:本文提出了一种增强的语言表示模型ERNIE,该模型同时利用大规模文本语料库和知识图谱进行训练,能够充分利用词汇、句法和知识信息。
效果:实验结果显示,ERNIE在各种知识驱动任务上取得了显著改进,并在其他常见的NLP任务上与最先进的BERT模型相媲美。
FLuID: Mitigating Stragglers in Federated Learning using Invariant Dropout
Irene Wang Prashant J. Nair Divya Mahajan
研究问题:联邦学习中,性能较差的设备(即“落后者”)往往决定了整体的训练时间,这对训练效率产生了瓶颈。
动机:为了解决联邦学习中由于落后设备导致的训练效率低下问题。
方法:提出了一种名为"Invariant Dropout"的方法,通过提取基于权重更新阈值的子模型来最小化对准确性的潜在影响。并在此基础上开发了一个自适应训练框架——Federated Learning using Invariant Dropout (FLuID)。
效果:FLuID能够提供轻量级的子模型提取以调节计算强度,从而在不影响模型质量的情况下减轻落后设备上的负载。实验证明,Invariant Dropout能够在保持基线模型效率的同时,通过动态运行时方法缓解落后设备的性能瓶颈。
Don’t just prune by magnitude! Your mask topology is a secret weapon
Duc N.M Hoang Souvik Kundu Shiwei Liu Zhangyang Wang
研究问题:本文旨在探索深度网络架构的连通性与性能之间的关系,并分析参数在图连通性中的作用。
动机:尽管已有一些研究将深度架构与扩张器图或拉马努金图联系起来,但尚未有工作明确探讨参数在图中连通性的角色。
方法:通过分析稀疏神经网络中的拉马努金结构的加权谱间隙,并研究其与最终性能的相关性。具体来说,我们检查了流行动态稀疏到稀疏网络训练方案下的稀疏结构演变,发现生成的随机拓扑结构本质上最大化了拉马努金图。
效果:我们发现了一个强大的关联存在于掩码、性能和加权谱间隙之间。利用这一观察结果,我们提出了一个新的“全谱坐标”概念,以全面描述稀疏神经网络的潜力。此外,我们还开发了一种新可行的剪枝方法,通过采样稀疏掩码来最大化L2-坐标距离。
Federated Multi-Objective Learning
Haibo Yang Zhuqing Liu Jia Liu Chaosheng Dong Michinari Momma
研究问题:现有的多目标优化(MOO)算法主要适用于集中式学习环境,无法满足多代理多任务学习的分布式特性和数据隐私需求。
动机:为了解决这一问题,我们提出了一种新的联邦多目标学习(FMOL)框架,允许多个客户端在保持训练数据私有的同时分散协作解决MOO问题。
方法:我们的FMOL框架允许不同客户端使用不同的目标函数,以支持广泛的应用场景,并将MOO的表述首次推广到联邦学习范式。为此,我们提出了两种新的联邦多目标优化(FMOO)算法,即联邦多梯度下降平均(FMGDA)和联邦随机多梯度下降平均(FSMGDA)。这两种算法都允许局部更新以显著降低通信成本,同时达到与单目标联邦学习算法相同的收敛速度。
效果:我们的大量实验证实了我们提出的FMOO算法的有效性。
VRA: Variational Rectified Activation for Out-of-distribution Detection
Mingyu Xu Zheng Lian Bin Liu Jianhua Tao
研究问题:如何有效地检测模型在开放世界中的分布外(OOD)数据,以建立可靠的机器学习系统。
动机:尽管现有的减少模型对OOD数据的过度自信的策略如ReAct取得了一定的成果,但是否存在更好的选择仍待验证。
方法:利用变分法寻找最优操作,并验证在OOD检测中抑制异常低和高激活以及放大中间激活的必要性,而不仅仅关注像ReAct那样的高激活。由此提出了一种名为“变分修正激活(VRA)”的新方法,该方法使用分段函数模拟这些抑制和放大操作。
效果:在多个基准数据集上的实验结果表明,我们的方法优于现有的后处理方法。同时,VRA与不同的评分函数和网络架构兼容。
Flow: Per-instance Personalized Federated Learning
Kunjal Panchal Sunav Choudhary Nisarg Parikh Lijun Zhang Hui Guan
研究问题:联邦学习中的数据异质性问题,即不同客户端的多样化数据分布使得训练一个有效的全局模型具有挑战性。
动机:现有的个性化方法通过为每个客户端创建一个适应其本地数据分布的个性化模型来解决数据异质性问题,但这些个性化模型在某些客户端上可能比全局模型的准确性低,导致与无个性化相比性能提升有限。
方法:提出一种基于实例的个性化联邦学习方法Flow,Flow创建了不仅适应每个客户端的数据分布,而且适应每个客户端的数据实例的动态个性化模型。这个个性化模型允许每个实例动态决定是使用本地参数还是全局参数进行正确的预测,从而提高客户端的准确性。
效果:对Flow的收敛性进行了理论分析,并在视觉和语言任务上实证证明了Flow在提高客户端准确性方面优于最先进的个性化方法。
Don't be so Monotone: Relaxing Stochastic Line Search in Over-Parameterized Models
Leonardo Galli Holger Rauhut Mark Schmidt
研究问题:现有的线搜索方法在现代过参数化设置中可以加速随机梯度下降(SGD)和Adam,但可能需要的步长比实际需要的更小。
动机:我们探索非单调线搜索方法来放宽这个条件,并可能接受更大的步长。尽管缺乏单调递减,但我们证明了与单调情况下相同的快速收敛率。
方法:我们提出了一个名为PoNoS的方法,通过将非单调线搜索与Polyak初始步长相结合来实现。此外,我们还开发了一种新的重置技术,在大多数迭代中将回溯量减少到零,同时保持较大的初始步长。
效果:实验表明,非单调方法提高了SGD/Adam的收敛速度和泛化性能,甚至超过了之前的单调线搜索。据我们所知,首次运行时比较显示,基于线搜索的方法的时期优势在整体计算时间中得到体现。
Aggregating Capacity in FL through Successive Layer Training for Computationally-Constrained Devices
Kilian Pfeiffer Ramin Khalili Joerg Henkel
研究问题:如何在资源有限的设备上进行联邦学习,以解决内存不足导致设备被排除在训练之外的问题。
动机:联邦学习通常在资源受限的边缘设备上进行,如计算内存有限。如果模型所需的内存超过了这个限制,该设备将被排除在训练之外,这可能导致较低的准确率,并造成偏见和不公平。
方法:我们提出了一种新的方法,使设备能够端到端地冻结和训练联邦学习的模型参数,从而降低了设备的资源需求,同时仍然允许参数之间有足够的协同适应。
效果:通过大量的实验评估,我们发现这种方法比现有技术大大提高了训练模型的准确率(提高了52.4个百分点),并且有效地聚合了分布式设备的计算能力。
Learning Large-Scale MTP$_2$ Gaussian Graphical Models via Bridge-Block Decomposition
Xiwen Wang Jiaxi Ying Daniel P. Palomar
研究问题:本文研究了学习大规模二阶多元正定(MTP_2)高斯图模型的问题。
动机:通过引入在大尺度稀疏图中常见的“桥接”概念,作者展示了整个问题可以通过在阈值样本协方差图上进行“桥接-块分解”产生的几个较小规模子问题和一组对“桥接”对应条目的显式解决方案等效优化。
方法:从实践的角度来看,这种简单且可证明的方法可以将一个大问题分解为小的、易于处理的子问题,从而大大降低计算复杂度,并对所有现有算法产生实质性改进。
效果:合成和真实世界的实验表明,与最先进的基准测试相比,我们提出的方法表现出显著的速度提升。
Federated Compositional Deep AUC Maximization
Xinwen Zhang Yihan Zhang Tianbao Yang Richard Souvenir Hongchang Gao
研究问题:本文旨在解决联邦学习在处理高度不平衡数据时预测性能不佳的问题。
动机:大多数现有的联邦学习方法主要关注平衡数据问题,对于样本类别极度不平衡的现实世界应用,其预测性能远未达到理想。
方法:通过直接优化曲线下面积(AUC)得分,开发了一种用于处理不平衡数据的新的联邦学习方法。具体来说,我们将AUC最大化问题形式化为联邦组合极小极大优化问题,并开发了一种带有动量的局部随机组合梯度下降上升算法。
效果:广泛的实验结果证实了该方法的有效性。
Generalised f-Mean Aggregation for Graph Neural Networks
Ryan Kortvelesy Steven Morad Amanda Prorok
研究问题:如何选择合适的图神经网络(GNN)聚合器以最小化信息损失。
动机:目前大多数方法选择“标准聚合器”如平均、求和或最大,但这种选择通常没有理由,且对性能有重大影响。
方法:提出GenAgg,一个通用的聚合运算符,可以表示包括所有标准聚合器在内的函数空间。
效果:实验表明,GenAgg能以比基线方法高得多的准确性表示标准聚合器,并且将其用作GNN中现有聚合器的替代品,通常会显著提高各种任务的性能。
DELTA: Diverse Client Sampling for Fasting Federated Learning
Lin Wang Yongxin Guo Tao Lin Xiaoying Tang
研究问题:如何在联邦学习中有效地减少通信负担,同时避免因客户端采样方案不当导致的模型更新差异大和收敛速度慢的问题。
动机:现有的客户端采样方法存在偏差或需要进一步优化以加快收敛速度。
方法:提出DELTA,一种无偏的采样方案,通过刻画客户端多样性和局部方差的影响,选择具有有价值信息的代表性客户端进行全局模型更新。
效果:实验证明,DELTA是能够最小化部分客户端参与引起的方差的最优无偏采样方案,并且在收敛速度上优于其他无偏采样方案。同时,针对全客户端梯度依赖性,提供了一种依赖于可用客户端信息的实用版本的DELTA,并分析了其收敛性。在合成和真实世界数据集上的实验结果验证了这些发现。
A fast heuristic to optimize time-space tradeoff for large models
Akifumi Imanishi Zijian Xu Masayuki Takagi Sixue Wang Emilio Castillo
研究问题:大规模神经网络训练受GPU内存限制,需要寻找有效的梯度重计算方法。
动机:现有的梯度重计算方法如Checkmate和Moccasin依赖于混合整数线性规划或约束规划,由于搜索空间巨大,扩展性有限。
方法:本文提出了一种基于模拟退火启发式的新算法FastSA进行梯度重计算。
效果:实验结果表明,FastSA在大型视觉和文本模型上取得了显著的内存减少效果,平均额外增加18%的计算开销。
RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time Path Tracing
Antoine Scardigli Lukas Cavigelli Lorenz K Muller
研究问题:蒙特卡洛路径追踪在低样本数量下会产生高噪声,限制了其在实时应用中的使用。
动机:提出一种端到端训练采样重要性网络、潜在空间编码器网络和去噪器网络的框架,以解决蒙特卡洛路径追踪的问题。
方法:使用强化学习优化采样重要性网络,避免显式数值近似梯度;不通过平均像素采样值,而是将所有采样值输入潜在空间编码器;编码器用潜在空间中学习到的表示替换手工制作的时空启发式方法;最后,训练神经网络去噪器对输出图像进行细化。
效果:该方法在多个具有挑战性的数据集上提高了视觉质量,与之前最先进的方法相比,渲染时间减少了1.6倍,使其成为实时应用的有希望的解决方案。
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization
Jeonghoon Kim Jung Hyun Lee Sungdong Kim Joonsuk Park Kang Min Yoo Se Jung Kwon Dongsoo Lee
研究问题:大型语言模型(LLMs)在微调与部署时面临内存需求大和计算成本高的挑战。
动机:尽管参数高效微调(PEFT)方法旨在减少微调过程中优化器状态的内存使用,但预训练LLM权重的内在大小仍是一个紧迫的问题。
方法:本文提出了一种简单而有效的参数高效且量化感知适应(PEQA)方法,该方法结合了PEFT与量化LLM的优势。通过仅更新量化比例,PEQA可以直接应用于量化LLM,确保任务转换的无缝性。
效果:我们为具有高达650亿个参数的LLM进行了任务特定的PEQA调整。为了评估PEQA调整的LLM的逻辑推理和语言理解能力,我们使用指令数据集对低比特量化LLM进行了微调。结果显示,即使LLM被量化到低于4位精度,其语言建模、少样本上下文学习和理解的能力也可以通过PEQA恢复到(甚至超过)其全精度原始性能。
Understanding How Consistency Works in Federated Learning via Stage-wise Relaxed Initialization
Yan Sun Li Shen Dacheng Tao
研究问题:本文旨在解决联邦学习中由于本地客户端优化不一致性导致的"客户端漂移"问题,并探索其对联邦学习的影响。
动机:联邦学习是一种分布式学习方法,通过协调大量的本地客户端在异构数据集上进行局部训练来共同训练全局模型。然而,现有的研究缺乏对"客户端漂移"问题的深入理论分析。
方法:本文设计了一种名为FedInit的高效联邦学习算法,该算法允许在每个局部训练阶段的开始时使用个性化的松弛初始化状态。具体来说,FedInit通过从当前的全局状态向最新局部状态的相反方向移动来初始化局部状态,这种松弛的初始化有助于修正局部发散并提高局部一致性水平。
效果:通过对剩余风险的分析,研究发现在非凸目标函数上,优化误差对局部不一致性不敏感,而主要影响FedInit的泛化误差界。实验结果验证了这一结论,并且表明FedInit能够在不增加额外成本的情况下达到最先进的性能。此外,阶段松弛初始化也可以被集成到现有的先进算法中,以提高联邦学习的性能。
MathNAS: If Blocks Have a Role in Mathematical Architecture Design
Wang Qinsi JingHan Ke Zhi Liang Sihai Zhang
研究问题:如何有效地进行神经架构搜索(NAS),以在大型模型中实现更快的搜索速度和更准确的结果。
动机:随着大型模型的发展,对更快的搜索速度和更精确的搜索结果的需求日益增强。然而,由于搜索空间的急剧扩大和相关的高昂性能评估成本,通过NAS设计大型模型具有挑战性。
方法:我们提出了一种新颖的分而治之策略,利用搜索空间的模块化特性,而不是将架构搜索视为一个整体问题。我们引入了MathNAS,这是一个基于数学规划的通用NAS框架。在MathNAS中,首先计算搜索空间中所有可能构建块的性能,然后根据其构建块的性能直接预测网络的性能。
效果:我们的方法是有效的,并在多个大规模计算机视觉和自然语言处理基准数据集上进行了验证。特别是在ImageNet-1k上,MathNAS实现了82.5%的top-1准确率,比Swin-T和LeViT-256分别高出1.2%和0.96%。此外,当部署在移动设备上时,MathNAS实现了实时搜索和动态网络切换,在1秒内完成(在TX2 GPU上为0.4秒),超越了基线动态网络的设备性能。
LogSpecT: Feasible Graph Learning Model from Stationary Signals with Recovery Guarantees
Shangyuan LIU Linglingzhi Zhu Anthony Man-Cho So
研究问题:如何从信号中学习图结构是图信号处理(GSP)的核心任务。
动机:在GSP社区中,一种被称为稳定图信号的图信号的重要子类正在越来越受欢迎,它扩展了数据在规则域上定义的平稳性的概念到图上的信号。最常用的从这些稳定信号中学习图的模型是SpecT,它是几乎所有后续更先进模型的基础。然而,该模型的实践形式rSpecT已被识别为对超参数的选择敏感,更重要的是,它可能会面临优化问题的不可行性。
方法:我们引入了第一个确保rSpecT不可行的条件,并设计了一个名为LogSpecT的新模型,以及其实践形式rLogSpecT来解决这个问题。与rSpecT相反,我们的新实践模型rLogSpecT总是可行的。此外,我们还提供了关于现代优化工具的收敛保证,这些工具与上逼近有关,这可能具有独立的兴趣和对各种学习问题的重大意义。
效果:为了证明rLogSpecT的实际优势,我们提出了一种基于线性化的交替方向乘子法(L-ADMM)的高度有效的算法,该算法允许每个子问题的闭型解,并有收敛保证。在合成和真实网络上的大量数值结果不仅证实了我们提出的方法的稳定性,而且强调了它们与现有模型相当甚至优越的性能。
Kissing to Find a Match: Efficient Low-Rank Permutation Representation
Hannah Dröge Zorah Lähner Yuval Bahat Onofre Martorell Nadal Felix Heide Michael Moeller
研究问题:本文旨在解决大规模排列矩阵在各领域匹配和分配问题中的关键作用,特别是在计算机视觉和机器人技术中。
动机:现有的排列矩阵表示方法由于其大小会呈二次方增长,导致内存需求巨大,限制了对大型问题实例的处理。
方法:本文提出通过低秩矩阵分解并添加非线性项来近似大型排列矩阵,以解决维度灾难问题。我们依赖“接吻数”理论来推断给定大小的排列矩阵所需的最小秩,这显著小于问题的大小,从而大大降低了计算和存储成本。
效果:实验结果表明,该方法可以准确表示大型排列矩阵,进而能够处理原本无法处理的大型问题。我们在一系列涉及预测排列矩阵的问题上展示了该方法的应用性和优点,包括线性和二次分配以及形状匹配等问题。
From Distribution Learning in Training to Gradient Search in Testing for Combinatorial Optimization
Yang Li Jinpei Guo Runzhong Wang Junchi Yan
研究问题:如何通过模型预测组合优化(CO)解决方案,同时提供有助于搜索的支撑知识。
动机:目前的神经网络在追求最小化历史问题实例的平均目标得分时,与组合优化寻求每个测试实例的最佳解决方案的核心目标偏离。
方法:提出T2TCO(Training to Testing)框架,首先利用生成模型在训练期间估计每个实例的高质量解决方案分布,然后在测试期间在解决方案空间内进行梯度搜索。
效果:实验结果表明,T2TCO在解决旅行商问题(TSP)和最大独立集问题(MIS)上具有显著优势,相比于先前最先进的方法,平均性能提高了49.15%和17.27%。
Communication-Efficient Federated Bilevel Optimization with Global and Local Lower Level Problems
Junyi Li Feihu Huang Heng Huang
研究问题:双层级优化在联邦学习环境中的运用及其收敛性问题。
动机:尽管双层级优化近期取得了显著进展,但在联邦学习环境下的应用和其对算法收敛性的影响仍不明确。
方法:我们提出了一种名为FedBiOAcc的高效通信算法,该算法利用分布式环境中的超梯度估计和基于动量的方差减少加速技术。
效果:FedBiOAcc实现了$O(\epsilon^{-1})$的通信复杂度、$O(\epsilon^{-1.5})$的样本复杂度,并以线性速度随客户端数量增加而增加。我们还分析了联邦双层优化问题的一种特殊情况,即底层问题由客户端本地管理的情况,证明了FedBiOAcc-Local(FedBiOAcc的修改版)在这种问题上具有相同的收敛速度。最后,我们通过两个真实世界的任务:联邦数据清理和联邦超表示学习来验证我们的算法,实验结果表明我们的算法表现优越。
Resolving the Tug-of-War: A Separation of Communication and Learning in Federated Learning
Junyi Li Heng Huang
研究问题:如何在保护隐私的同时,实现分布式数据上的机器学习?
动机:现有的联邦学习(FL)模式在学习和通信对参数选择的需求上存在根本的差异。
方法:提出FedSep,一种新的两层联邦学习框架,将学习和通信分离,并通过解码/编码操作进行连接。
效果:理论证明FedSep的收敛性与标准的FL算法相匹配。实证验证显示,FedSep在各种任务中的表现优于各种基线。
Convolutional State Space Models for Long-Range Spatiotemporal Modeling
Jimmy T.H. Smith Shalini De Mello Jan Kautz Scott Linderman Wonmin Byeon
研究问题:如何有效地对长时空序列进行建模,同时处理复杂的空间关联和长程时间依赖性。
动机:由于需要同时处理复杂的空间关联和长程时间依赖性,对长时空序列的有效建模具有挑战性。ConvLSTMs和Transformers虽然都试图解决这个问题,但各自存在训练速度慢和难以扩展到更长序列的问题。
方法:提出了一种结合了ConvLSTM的张量建模思想和S4、S5等状态空间方法的长序列建模方法——卷积状态空间模型(ConvSSM)。通过并行扫描实现亚二次并行化和快速自回归生成,并建立了ConvSSMs和SSMs的动态等价性,为长程依赖性建模提供了参数化和初始化策略。
效果:基于此,研发出了适用于长程时空建模的高效ConvSSM变体——ConvS5。在长时序Moving-MNIST实验中,ConvS5显著优于Transformers和ConvLSTM,且训练速度快于ConvLSTM 3倍,样本生成速度快于Transformers 400倍。此外,ConvS5在DMLab、Minecraft和Habitat预测基准测试中的表现与或超过了最先进的方法,为长时空序列建模开辟了新的方向。
AutoGO: Automated Computation Graph Optimization for Neural Network Evolution
Mohammad Salameh Keith G Mills Negar Hassanpour Fred X. Han Shuting Zhang Wei Lu SHANGLING JUI CHUNHUA ZHOU Fengyu Sun Di Niu
研究问题:优化深度神经网络以获取高质量的模型,实现高效的实际部署。
动机:现有的方法要么在启发式设计空间中搜索神经网络架构,要么对计算原语进行低级别调整以提高硬件上的推理效率。
方法:提出自动化图形优化(AutoGO)框架,通过一个标记化方案在低级计算图的原语操作上演化神经网络,以提高其性能和对硬件的友好性。
效果:大量实验结果表明,AutoGO可以在一系列计算机视觉任务上自动演化几种典型的大型卷积网络,显著提高任务性能并减少浮点运算次数,同时不需要引入任何新的原语操作。
Learning to Configure Separators in Branch-and-Cut
Sirui Li Wenbin Ouyang Max B. Paulus Cathy Wu
研究问题:如何有效地选择分离器以加速混合整数线性规划(MILP)的求解。
动机:现代MILP求解器依赖于各种分离器来生成多样化的切割平面,但在选择分离器的过程中存在挑战。
方法:我们提出了一种数据驱动的策略来限制选择空间,并在受限的空间上实施学习指导的算法。该方法预测了实例感知的分离器配置,这些配置可以在求解过程中动态适应,从而有效地加速开源MILP求解器SCIP。
效果:在合成和真实世界的MILP基准测试中,我们的方法可以将相对求解时间提高多达72%和37%。
Embedding Space Interpolation Beyond Mini-Batch, Beyond Pairs and Beyond Examples
Shashanka Venkataramanan Ewa Kijak laurent amsaleg Yannis Avrithis
研究问题:如何通过插值进行数据增强,以超越经验风险最小化(ERM)。
动机:大多数方法在输入空间中生成的示例数量有限,且被插值的示例数量通常限制为两个。
方法:提出MultiMix和Dense MultiMix,可以在超出 mini-batch 大小的情况下生成任意数量的插值示例,并在嵌入空间中对整个 mini-batch 进行插值。
效果:在四个不同的基准测试中,即使插值只是线性的,我们的方法也显著提高了最先进的mixup方法的效果。通过分析嵌入空间,我们发现类别在嵌入空间中更紧密地聚集和均匀分布,从而解释了改进的行为。
HotBEV: Hardware-oriented Transformer-based Multi-View 3D Detector for BEV Perception
Peiyan Dong Zhenglun Kong Xin Meng Pinrui Yu Yifan Gong Geng Yuan Hao Tang Yanzhi Wang
研究问题:如何设计一种低延迟、高效且准确的鸟瞰图(BEV)感知模型,以实现自动驾驶系统中的实时决策。
动机:现有的BEV检测方法虽然提高了检测精度,但由于计算和内存负担重,增加了系统崩溃的风险,而且缺乏对实际设备延迟的关注。
方法:提出了一种考虑硬件属性(如内存访问成本和并行度)的延迟感知设计方法。利用理论延迟预测模型和有效的构建操作符,开发了一种面向硬件的特征捕捉和融合优化的骨干网络。
效果:实验表明,新提出的HotBEV在多个GPU设备上比其他方法快1.1倍至6.3倍,同时在V100上实现了2%至23%的NDS增益和2%至7.8%的mAP增益。
PackQViT: Faster Sub-8-bit Vision Transformers via Full and Packed Quantization on the Mobile
Peiyan Dong LEI LU Chao Wu Cheng Lyu Geng Yuan Hao Tang Yanzhi Wang
研究问题:计算机视觉中的Transformer模型需要大量的计算和内存资源,如何优化其硬件效率并降低推理延迟是一个难题。
动机:现有的商品硬件如CPU和GPU在执行低于8位精度的量化网络时效率低下,且目前关于Transformer模型低于8位精度量化的研究文献较少。
方法:本文提出了一种名为PackQViT的激活感知全低于8位量化感知训练框架,通过调整数据激活策略和精度,采用对数量化或裁剪处理长尾部分布,引入异常值感知训练进行残差链接量化,以及使用Int-$2^{n}$-Softmax、Int-LayerNorm和Integer GELU实现整数计算流程,最后开发了一个基于SIMD的4位打包乘法器以实现手机上的端到端ViT加速。
效果:与之前使用8位精度对ViT进行量化的研究相比,PackQViT在ImageNet数据集上的各种广泛使用的ViTs中,准确率提高了0.4%至17.9%;在4位精度下,PackQViT的准确率提高了0.4%至2.8%。在Snapdragon 870 SoC CPU的Realme GT安卓智能手机上,与基线乘法器相比,实现了8位场景下2.6x至3.7x的速度提升和4位场景下的3.8x至5.9x的速度提升,确保了实际的实时性能。
Fast Trainable Projection for Robust Fine-tuning
Junjiao Tian Yen-Cheng Liu James Smith Zsolt Kira
研究问题:如何实现预训练模型在向下游任务转移时,既能保持优秀的分布内性能,又能保持良好的分布外鲁棒性。
动机:目前的投影梯度下降法虽然在鲁棒微调中取得了成功,但算法的可扩展性和效率存在问题。
方法:提出一种新的基于投影的微调算法——快速可训练投影(FTP),通过学习每一层投影约束,提高了计算效率。
效果:实验表明,FTP在分布外数据集上具有优越的鲁棒性,并在四个不同的视觉任务和五个不同的预训练模型上进行了测试。此外,由于其易于适应的特性,FTP也广泛应用于其他学习场景,如低标签和持续学习设置。
ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation
Shuyang Sun Weijun Wang Andrew G. Howard Qihang Yu Philip Torr Liang-Chieh Chen
研究问题:如何提高基于掩码变压器的端到端架构在全景分割训练过程中的效率和性能。
动机:全景分割训练目标的复杂性导致对假阳性的惩罚较高,这种不平衡的损失使得训练过程困难,尤其是对于高效的模型。
方法:提出ReMaX方法,通过在训练阶段对掩码预测和类别预测进行放松,以改善模型的训练效果。
效果:实验证明,该方法可以在不增加推理计算成本的情况下,明显提高模型性能。将该方法与MobileNetV3-Small等高效骨干网络结合,在COCO、ADE20K和Cityscapes等数据集上实现了新的最先进的全景分割结果。
“Why Not Looking backward?” A Robust Two-Step Method to Automatically Terminate Bayesian Optimization
Shuang Li Ke Li Wei Li
研究问题:如何有效地终止贝叶斯优化(BO)以解决昂贵的黑箱优化问题。
动机:BO是一种强大的方法,用于处理昂贵的黑箱优化问题。然而,决定何时终止BO对解决方案的质量和计算效率有重大影响。
方法:我们提出了一种简单但理论上有根据的两步法来自动终止BO。核心概念是通过检查之前观察到的样本主动识别搜索是否在凸区域中。一旦该凸区域内的局部遗憾低于预定阈值,BO就会停止。为了增强数值稳定性,我们提出了一种通过解决双层优化问题来计算终止指标的近似方法。
效果:我们在各种基准问题上进行了广泛的实证研究,包括合成函数、强化学习和超参数优化。实验结果表明,我们提出的方法节省了高达80%的计算预算,与同行方法相比,性能下降了一个数量级。此外,我们的终止方法在终止标准的设置上是稳健的。
Hypervolume Maximization: A Geometric View of Pareto Set Learning
Xiaoyuan Zhang Xi Lin Bo Xue Yifan Chen Qingfu Zhang
研究问题:提出一种新颖的多目标算法,使用神经网络对Pareto集进行建模。
动机:与以往主要关注识别有限数量的解决方案不同,我们的方法允许直接对整个Pareto集进行建模。
方法:建立了学习完整的Pareto集和最大化相关超体积之间的等价性,使得可以分析超体积(作为新的度量标准)在Pareto集学习中的收敛性。具体来说,我们的新分析框架揭示了学习到的Pareto解决方案与其在极坐标系中的表示之间的关系。
效果:我们在各种基准问题和实际问题上评估了我们提出的方法,令人鼓舞的结果使其成为现有多目标算法的一个有潜力的替代方案。代码可在https://github.com/xzhang2523/hvpsl/tree/master获取。
On the Pareto Front of Multilingual Neural Machine Translation
Liang Chen Shuming Ma Dongdong Zhang Furu Wei Baobao Chang
研究问题:本文研究了在多语言神经机器翻译(MNMT)中,给定方向的性能如何随其采样比例变化。
动机:通过训练200多个多语言模型,发现某些翻译方向的性能并不总是随着其在多任务优化目标中的权重增加而提高,这在训练语料库存在数据不平衡时会导致整体性能提升的挑战。
方法:基于观察结果,提出了双幂律预测MNMT中独特的性能权衡前沿,该方法在不同的语言、数据充分性和任务数量上都表现出稳健性。最后,将MNMT中的采样比例选择问题转化为基于双幂律的优化问题。
效果:大量实验表明,该方法比温度搜索和梯度操作方法效果更好,且仅需总训练预算的1/5到1/2。
TexQ: Zero-shot Network Quantization with Texture Feature Distribution Calibration
Xinrui Chen Yizhi Wang Renao Yan Yiqing Liu Tian Guan Yonghong He
研究问题:如何有效地压缩神经网络,提高边缘设备上神经网络模型的处理效率。
动机:现有的大多数量化方法使用真实数据集来优化量化参数并进行微调,但这种方法存在隐私和安全问题。因此,需要一种自然的方法引入合成样本进行零样本量化(ZSQ)。
方法:提出了一种新的ZSQ方法TexQ,首先通过纹理特征能量分布校准方法为每个类别合成一个校准图像并提取其校准中心,然后使用这些校准中心指导生成器合成样本,最后引入混合知识蒸馏模块以丰富合成样本用于微调。
效果:在CIFAR10/100和ImageNet上的大量实验表明,TexQ在极低比特宽度量化方面表现优越。例如,当ResNet-18量化到3位时,与最先进的方法相比,TexQ在ImageNet上实现了12.18%的top-1准确率提升。
MCUFormer: Deploying Vision Tranformers on Microcontrollers with Limited Memory
Yinan Liang Ziwei Wang Xiuwei Xu Yansong Tang Jie Zhou Jiwen Lu
研究问题:如何将视觉变换器部署在内存有限的微控制器上。
动机:由于GPU价格高昂且能耗大,将深度学习模型部署在如微控制器等物联网设备上对生态AI有重大贡献。虽然现有的方法可以在微控制器上成功进行高分辨率图像的卷积神经网络推理,但在许多视觉应用中实现最先进性能的视觉变换器框架仍未得到探索。
方法:提出一种名为MCUFormer的硬件-算法协同优化方法,用于在内存极其有限的微控制器上部署视觉变换器。我们联合设计了变换器架构并构建了推理算子库以适应内存资源约束。具体来说,我们将一次网络结构搜索(NAS)推广到发现给定微控制器内存预算下具有最高任务性能的最佳架构,通过考虑低秩分解维度和补丁分辨率来扩大视觉变换器的现有搜索空间以减少内存。对于视觉变换器推理算子库的构建,我们通过操作整合、补丁嵌入分解和令牌重写调度推理期间的内存缓冲区,使内存缓冲区能够充分利用以适应视觉变换器的前向传播。
效果:实验结果表明,我们的MCUFormer在STM32F746微控制器上使用320KB内存实现了73.62\%的ImageNet图像分类任务top-1准确率。代码可在https://github.com/liangyn22/MCUFormer获取。
Greedy Poisson Rejection Sampling
Gergely Flamich
研究问题:本文旨在解决一次性信道模拟问题,即使用编码分布P对目标分布Q的单个样本进行编码,以平均尽可能少的比特数。
动机:现有的一次性信道模拟解决方案速度过慢或适用性有限,阻止了其广泛应用。
方法:通过构造一个等价于贪婪地搜索泊松过程点的拒绝采样程序,我们提出了一种名为“贪婪泊松拒绝采样”(GPRS)的算法,并分析了其正确性和时间复杂度的几个变体。
效果:实验验证了我们的定理,证明GPRS显著优于当前最先进的A*编码方法。
AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for Preconditioning Matrix
Yun Yue Zhiling Ye Jiadi Jiang Yongchao Liu Ke Zhang
研究问题:如何设计预训练语言模型以充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,需要通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱进行联合训练,训练出ERNIE模型,该模型能更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
ATMAN: Understanding Transformer Predictions Through Memory Efficient Attention Manipulation
Björn Deiseroth Mayukh Deb Samuel Weinbach Manuel Brack Patrick Schramowski Kristian Kersting
研究问题:当前复杂的生成型变换模型需要大量的参数和处理多种输入模态的能力,但其预测解释的方法资源消耗大,且在生产环境中难以使用。
动机:为了解决生成型变换模型预测解释的问题,提出了一种几乎不需要额外成本的解释方法。
方法:提出了AtMan方法,该方法通过操纵变换器的注意机制来产生输入与输出预测的相关图。它不使用反向传播,而是应用了一种并行的基于令牌的搜索方法,依赖于嵌入空间中的余弦相似性邻域。
效果:在文本和图像-文本基准测试上的大量实验表明,AtMan在几个指标上优于当前最先进的梯度基方法,同时具有计算效率。因此,AtMan适合在大模型推理部署中使用。
SUBP: Soft Uniform Block Pruning for 1$\times$N Sparse CNNs Multithreading Acceleration
Jingyang Xiang Siqi Li Jun Chen Guang Dai Shipeng Bai Yukai Ma Yong Liu
研究问题:如何有效地压缩和加速在资源有限的环境中的卷积神经网络(CNNs)模型。
动机:通过约束输出通道中的连续N个权重为非零组,最近的1×N稀疏网络由于其三个突出的优点而受到广泛关注:1) 通过“块稀疏行”矩阵节省大量存储空间;2) 在高稀疏度下表现优秀;3) 在具有高级向量扩展的CPU上显著加速。
方法:本文提出了一种新的“软均匀块剪枝”(SUBP)方法,从零开始训练均匀的1×N稀疏结构化网络。具体来说,我们的方法倾向于在整个训练过程中以均匀的方式重复允许被剪枝的块基于块角冗余性和重要性采样重新生长到网络中。
效果:在ImageNet上进行的全面实验表明,我们的SUBP方法始终优于现有的基于预训练模型或从零开始训练的1×N和结构化稀疏方法。源代码和模型可在\url{https://github.com/JingyangXiang/SUBP}获取。
Dynamic Personalized Federated Learning with Adaptive Differential Privacy
Xiyuan Yang Wenke Huang Mang Ye
研究问题:目前的个性化联邦学习方法存在不灵活的个性化和收敛困难的问题。
动机:由于数据分布的非IID特性和隐私泄露风险,个性化联邦学习需要解决这些问题。
方法:提出一种具有动态费雪个性化和自适应约束(FedDPA)的新型联邦学习方法。该方法通过使用层状费雪信息来测量局部参数的信息内容,同时防止这些参数受到噪声干扰。此外,还引入了一种自适应方法,通过对先前确定的个性化参数和共享参数应用差分约束策略,以改善收敛性。
效果:在CIFAR-10、FEMNIST和SVHN数据集上的实验结果表明,该方法在实现更好的性能和对剪切操作的鲁棒性方面是有效的。
Balanced Training for Sparse GANs
Yite Wang Jing Wu Naira Hovakimyan Ruoyu Sun
研究问题:如何降低深度神经网络,特别是生成对抗网络(GANs)的训练和推理成本。
动机:尽管深度神经网络在许多任务上表现出色,但其高计算复杂性限制了其应用。
方法:提出一种新的动态稀疏训练(DST)方法,通过控制生成器和判别器之间的平衡来优化性能和计算成本。
效果:在多个数据集上的实验表明,该方法能有效降低训练和推理成本,同时保持良好的性能。
Fast Partitioned Learned Bloom Filter
Atsuki Sato Yusuke Matsui
研究问题:如何减少构建分区学习布隆过滤器(PLBF)的时间复杂度,同时保持其内存效率。
动机:现有的PLBF虽然在内存效率上表现优秀,但其构造时间复杂度高达$mathcal{O}(N^3k)$,限制了其在实际应用中的使用。
方法:提出了两种方法来降低PLBF的构建时间。一种是快速PLBF,其时间复杂度为$\mathcal{O}(N^2k)$;另一种是快速PLBF++,其时间复杂度更低,为$\mathcal{O}(Nklog N + Nk^2)$。
效果:实验结果显示,快速PLBF和快速PLBF++的构建速度比PLBF快233倍和761倍,且快速PLBF在内存效率上与PLBF相当,快速PLBF++则几乎与PLBF具有相同的内存效率。
H3T: Efficient Integration of Memory Optimization and Parallelism for Large-scale Transformer Training
Yuzhong Wang Xu Han Weilin Zhao Guoyang Zeng Zhiyuan Liu Maosong Sun
研究问题:如何提高基于Transformer的大型AI模型的训练效率。
动机:尽管基于Transformer的模型在许多人工智能任务上取得了最先进的性能,但其巨大的参数大小给存储和计算带来了严重挑战。
方法:提出了一个自动寻找内存优化和并行化高效整合的框架(H3T),通过设计搜索算法来选择合适的内存优化策略和并行化方案,以实现内存开销和训练效率之间的平衡。
效果:实验结果表明,H3T比目前流行的深度学习工具包Megatron-DeepSpeed快1.2倍至4.3倍,同时减少了34.6%至80.5%的内存开销。此外,H3T只需使用64个NVIDIA A100 GPU就能训练GPT-3-175B,这在现有的深度学习工具包中是非常困难的。
Layer-Neighbor Sampling --- Defusing Neighborhood Explosion in GNNs
Muhammed Fatih Balin Umit Catalyurek
研究问题:大规模图神经网络训练的挑战。
动机:解决现有方法在处理大规模图神经网络训练时存在的邻居爆炸现象或性能不佳的问题。
方法:提出一种新的采样算法,称为Layer-neighbor Sampling(LABOR),作为邻居采样(NS)的直接替代方案,同时减少7倍的顶点采样,且不牺牲质量。
效果:实验证明,LABOR在相同的顶点采样预算约束下,比现有的层采样方法收敛更快,并能使用的批量大小比NS大112倍。
Block-Coordinate Methods and Restarting for Solving Extensive-Form Games
Darshan Chakrabarti Jelena Diakonikolas Christian Kroer
研究问题:如何在大规模序列博弈中实现有效的优化策略?
动机:现有的优化方法在机器学习和优化领域表现优秀,但在大规模序列博弈中尚未找到适用的方法。
方法:提出一种类似循环坐标下降法的方法,用于解决序列形式策略的多面体问题,适用于扩展形博弈(EFG)的玩家策略空间。
效果:该方法具有O(1/T)的收敛速度,避免了最坏情况下与块数成多项式比例的扩展,实证表明其性能优于其他先进的一阶方法,并有时能超越零和EFG数值均衡计算的先进算法CFR+。此外,通过引入重启启发式方法,可以进一步提高现有方法的求解速度。
A*Net: A Scalable Path-based Reasoning Approach for Knowledge Graphs
Zhaocheng Zhu Xinyu Yuan Mikhail Galkin Sophie Xhonneux Ming Zhang Maxime Gazeau Jian Tang
研究问题:如何有效地进行大规模知识图谱推理。
动机:现有的嵌入方法在处理大规模知识图谱推理时存在效率问题,路径基方法虽然具有归纳能力,但扩展性受限于路径数量的指数增长。
方法:提出A*Net,一种可扩展的基于路径的知识图谱推理方法。该方法受到最短路径问题的A*算法启发,通过学习优先函数来选择重要的节点和边,以减少训练和推理的时间和内存占用。
效果:实验表明,A*Net在转化型和归纳型知识图谱推理基准测试上的表现与现有最先进的基于路径的方法相当,而每次迭代仅访问10%的节点和边。在百万级数据集ogbl-wikikg2上,A*Net不仅取得了新的最优结果,而且收敛速度比嵌入方法更快。A*Net是首个能在如此大规模上进行知识图谱推理的基于路径的方法。
DropCompute: simple and more robust distributed synchronous training via compute variance reduction
Niv Giladi Shahar Gottlieb Moran Shkolnik Asaf Karnieli Ron Banner Elad Hoffer Kfir Yehuda Levy Daniel Soudry
研究问题:如何减少分布式训练中由于计算时间差异导致的工作节点延迟,以提高同步训练的鲁棒性。
动机:当前主流的大规模深度神经网络训练方法都存在因等待所有工作节点而受限的问题。
方法:通过分析计算时间属性与由延迟工作节点引起的可扩展性限制之间的关系,提出一种简单有效的去中心化方法来减少工作节点之间的差异,从而提高同步训练的鲁棒性。
效果:该方法已成功应用于200个Gaudi加速器的大规模训练任务,并验证了其有效性。
Symbolic Discovery of Optimization Algorithms
Xiangning Chen Chen Liang Da Huang Esteban Real Kaiyuan Wang Hieu Pham Xuanyi Dong Thang Luong Cho-Jui Hsieh Yifeng Lu Quoc V Le
研究问题:如何通过程序搜索来发现优化深度神经网络训练的算法。
动机:现有的优化算法在处理大规模任务时存在效率低下和内存占用大的问题。
方法:将算法发现视为程序搜索,并应用到深度学习网络训练的优化算法发现中,同时引入了程序选择和简化策略以减小代理任务和目标任务之间的泛化差距。
效果:该方法发现了一种名为Lion(Evolved Sign Motion)的简单有效的优化算法,其性能优于Adam,且在图像分类、视觉语言对比学习、扩散模型以及自回归、掩码语言建模和微调等任务上的表现均与Adam相当或更好。
MixFormerV2: Efficient Fully Transformer Tracking
Yutao Cui Tianhui Song Gangshan Wu Limin Wang
研究问题:现有的基于Transformer的跟踪器在标准基准上取得了强大的准确性,但其效率仍然是在GPU和CPU平台上实际部署的障碍。
动机:为了解决这个问题,本文提出了一种完全基于Transformer的跟踪框架MixFormerV2,无需任何密集卷积操作和复杂的得分预测模块。
方法:我们引入了四个特殊的预测标记,并将它们与目标模板和搜索区域的标记连接起来。然后,我们在这些混合标记序列上应用统一的Transformer主干。这些预测标记能够通过混合注意力捕捉目标模板和搜索区域之间的复杂关联性。基于这些标记,我们可以通过简单的MLP头部轻松预测跟踪框并估计其置信度分数。
效果:为了进一步提高MixFormerV2的效率,我们提出了一种新的基于蒸馏的模型缩小范式,包括密集到稀疏的蒸馏和深到浅的蒸馏。前者旨在将知识从基于密集头的MixViT转移到我们的全Transformer跟踪器,后者用于剪枝主干的一些层。我们实例化了两种类型的MixForemrV2,其中MixFormerV2-B在LaSOT上实现了70.6%的AUC和在TNL2k上实现了56.7%的AUC,具有高达165 FPS的GPU速度,而MixFormerV2-S在LaSOT上以实时CPU速度超过了FEAR-L 2.7%的AUC。
Federated Learning with Manifold Regularization and Normalized Update Reaggregation
Xuming An Li Shen Han Hu Yong Luo
研究问题:联邦学习中,由于客户端本地数据的异构性导致模型不一致,进而影响全局更新的收敛速度。
动机:现有的消除局部和全局模型参数(或梯度)差异的方法无法反映复杂的机器学习模型结构和欧几里得空间在有意义的几何表示方面的限制导致的模型不一致性。
方法:本文提出FedMRUR,采用流形模型融合方案和新全局优化器来缓解其负面影响。具体来说,FedMRUR采用双曲图流形正则化器,强制局部和全局模型的数据表示在低维子空间中彼此接近。
效果:通过利用表示的流形结构,FedMRUR显著减少了模型不一致性。同时,FedMRUR将客户端更新范数聚合为全局更新范数,从而适当增大每个客户端对全局更新的贡献,减轻了由客户端更新近乎正交引起的范数减小的影响。实验证明,FedMRUR可以在较少的通信下实现新的最先进的准确性。
Spectral Co-Distillation for Personalized Federated Learning
Zihan Chen Howard Hao Yang Tony Quek Kai Fong Ernest Chong
研究问题:个性化联邦学习(PFL)被广泛研究,以解决数据异构性的挑战,特别是当单一的通用模型无法同时满足本地客户端的多样化性能需求时。
动机:现有的PFL方法本质上基于全局通用和局部个性化模型之间的关系由模型权重的相似性捕捉的想法。这种相似性主要基于将模型架构划分为通用与个性化组件,或通过模型权重对客户端关系进行建模。
方法:为了更好地捕捉相似(但不同)的通用与个性化模型表示,我们提出了一种基于模型频谱信息的新颖蒸馏方法——光谱蒸馏。在光谱蒸馏的基础上,我们还引入了一种共同蒸馏框架,建立了通用和个性化模型训练之间的双向桥梁。此外,为了利用传统PFL中的本地空闲时间,我们提出了一种无需等待的本地训练协议。
效果:通过在多个数据集上进行广泛的实验,在不同的数据异构设置下,我们展示了所提出的光谱共同蒸馏方法和无需等待的训练协议的优越性和有效性。
PTQD: Accurate Post-Training Quantization for Diffusion Models
Yefei He Luping Liu Jing Liu Weijia Wu Hong Zhou Bohan Zhuang
研究问题:扩散模型在图像生成等任务中表现优秀,但推理时的迭代去噪过程计算成本高,不适用于低延迟和可扩展的实时应用。
动机:对扩散模型进行后训练量化可以显著减小模型大小并加速采样过程,而无需重新训练。然而,直接将现有的后训练量化方法应用于低比特扩散模型会显著降低生成样本的质量。
方法:我们提出了一种统一的量化噪声和扩散扰动噪声的量化去噪过程公式。具体来说,我们将量化噪声分解为与其全精度对应部分相关的和剩余的不相关部分。相关部分可以通过估计相关系数来轻松纠正。对于不相关部分,我们从量化结果中减去偏差以纠正均值偏差,并校准去噪方差进度以吸收由量化产生的额外方差。此外,我们还引入了混合精度方案,为每个去噪步骤选择最优位宽,优先选择较低的位宽以加快早期去噪步骤,同时确保较高的位宽在后续步骤中保持高信噪比。
效果:大量实验证明,我们的方法在生成高质量样本方面优于以前的后训练量化扩散模型,与ImageNet 256x256上的全精度LDM-4相比,仅增加了0.06的FID分数,同时节省了19.9倍的位操作。代码可在[https://github.com/ziplab/PTQD](https://github.com/ziplab/PTQD)获取。
Construction of Hierarchical Neural Architecture Search Spaces based on Context-free Grammars
Simon Schrodi Danny Stoll Binxin Ru Rhea Sanjay Sukthanker Thomas Brox Frank Hutter
研究问题:如何利用神经网络架构搜索(NAS)从简单的构建模块中发现神经架构。
动机:目前,虽然分层搜索空间在神经网络架构搜索中表现出了潜力,但它们缺乏统一的搜索空间设计框架,并且通常只搜索架构的某些有限方面。
方法:本文提出了一种基于上下文无关语法的统一搜索空间设计框架,该框架可以自然且紧凑地生成比文献中常见空间大100倍的表达性分层搜索空间。通过增强和使用其属性,我们有效地实现了对完整架构的搜索,并促进了规律性。此外,我们还为贝叶斯优化搜索策略提出了一种有效的分层内核设计,以高效地搜索如此巨大的空间。
效果:我们展示了搜索空间设计框架的通用性,并表明我们的搜索策略可以优于现有的NAS方法。
Structural Pruning for Diffusion Models
Gongfan Fang Xinyin Ma Xinchao Wang
研究问题:如何有效地压缩深度学习模型,减少训练和推理的计算开销。
动机:扩散概率模型(DPMs)在生成建模方面取得了显著的进步,但其训练和推理过程中的大量计算消耗是一个挑战。
方法:提出一种名为“差异剪枝”的高效压缩方法,该方法通过在预训练模型上进行微调,无需重新训练即可学习轻量级的扩散模型。该方法的核心是对剪枝时间步进行泰勒展开,忽略非贡献扩散步骤,并通过集成有信息的梯度来识别重要权重。
效果:实验结果表明,该方法可以在原始训练开销的10%到20%之间实现大约50%的FLOPs减少,同时保留了与预训练模型一致的生成行为。
REx: Data-Free Residual Quantization Error Expansion
Edouard YVINEC Arnaud Dapogny Matthieu Cord Kevin Bailly
研究问题:深度神经网络在计算机视觉和自然语言处理中广泛应用,但高推理成本是一个问题。
动机:为了解决这个问题,我们专注于无需数据的方法,并关注隐私权问题。然而,这些技术缺乏对目标设备的适应性。
方法:我们提出了REx,一种利用残差误差扩展和组稀疏性的量化方法。这种方法可以灵活地为每个位宽和目标设备找到良好的精度与速度权衡。
效果:实验表明,REx在卷积网络、变换器以及计算机视觉和自然语言处理模型上都实现了更好的权衡。特别是在大型语言模型上,REx优雅地解决了阻碍最先进技术的离群值问题。此外,REx有强大的理论保证,可以与以前的量化工作结合使用。
Generalizable Lightweight Proxy for Robust NAS against Diverse Perturbations
Hyeonjeong Ha Minseon Kim Sung Ju Hwang
研究问题:现有的神经架构搜索(NAS)框架在寻找最优架构时,只考虑了干净图像的性能,而对各种类型的干扰或破坏的鲁棒性在实践中至关重要。
动机:尽管存在一些集成对抗训练的鲁棒NAS框架来解决这个问题,但他们只考虑了对抗攻击的鲁棒性,并且需要大量的计算资源来为单个任务发现最优架构,这使得它们在实际场景中不实用。
方法:我们提出了一种新的轻量级鲁棒零成本代理,它在初始化状态下考虑了干净和被干扰图像的特征、参数和梯度的一致性。这种方法可以快速有效地搜索能够学习具有各种干扰鲁棒性的泛化特征的神经网络架构。
效果:实验结果表明,我们的代理可以在多个基准数据集和不同的搜索空间上快速高效地搜索出一致地抵抗各种干扰的神经网络架构,大大优于现有的干净零射NAS和鲁棒NAS,并减少了搜索成本。
Towards Better Dynamic Graph Learning: New Architecture and Unified Library
Le Yu Leilei Sun Bowen Du Weifeng Lv
研究问题:提出一种新的基于Transformer的动态图学习架构DyGFormer。
动机:现有的动态图学习方法在捕获节点间的相关性和长期时间依赖性上存在不足。
方法:通过设计邻居共现编码方案和分片技术,使模型能够有效地从更长的历史序列中学习和提取信息。
效果:实验结果表明,DyGFormer在大多数数据集上都取得了最先进的性能,证明了其在捕获节点相关性和长期时间依赖性方面的效果。同时,提出的DyGLib库也有助于推动动态图学习的可重复、可扩展和可信的研究。
Masked Image Residual Learning for Scaling Deeper Vision Transformers
Guoxi Huang Hongtao Fu Adrian G. Bors
研究问题:本文旨在解决深度视觉转换器(ViTs)在预训练过程中的挑战,即使用遮蔽图像建模(MIM)进行预训练时,深层的退化问题。
动机:作者发现深度ViTs更难训练,特别是在使用遮蔽图像建模进行预训练时,深层存在明显的退化问题。
方法:为了缓解这个问题,作者提出了一种名为"遮蔽图像残差学习"(MIRL)的自监督学习框架。通过将深层ViTs的预训练目标重新定义为学习恢复被遮蔽图像的残差,显著减轻了退化问题,使增加ViT深度成为提升性能的有希望的方向。
效果:实证研究表明,使用MIRL可以有效地优化深层ViTs,并且容易从增加的深度中获得准确性提升。在与ViT-Base和ViT-Large相同的计算复杂度下,实现了4.5倍和2倍更深的ViTs,分别称为ViT-S-54和ViT-B-48。更深层次的ViT-S-54的成本仅为ViT-Large的三分之一,但其性能却与ViT-Large相当。ViT-B-48在ImageNet上达到了86.2%的top-1准确率。此外,用MIRL预训练的深层ViTs在诸如目标检测和语义分割等下游任务上表现出优秀的泛化能力;同时,MIRL也显示出了高效的预训练效率。
Knowledge Distillation for High Dimensional Search Index
Zepu Lu Jin Chen Defu Lian ZAIXI ZHANG Yong Ge Enhong Chen
研究问题:如何设计一种新的学习算法,提高压缩搜索索引在高维空间中的检索性能。
动机:由于压缩方法在大规模数据集上的检索效率优势,轻量级压缩模型在近似最近邻搜索(ANNS)和最大内积搜索(MIPS)中广泛使用。然而,由于维度诅咒和优化目标的限制(如缺乏查询和文档之间的交互),压缩方法的结果准确性较低。
方法:本文提出了一种名为知识蒸馏的高维搜索索引框架(KDindex)。通过从高精度的ANNS和MIPS模型(如基于图的索引)中提炼知识,高效地学习轻量级索引。具体来说,学生模型被引导保持教师模型产生的前k个相关结果的相同排名顺序,这作为查询和文档之间的额外监督信号,以学习文档之间的相似性。此外,为了避免所有候选项都被分配到同一个质心这一平凡解,将最小化压缩误差的重构损失和平衡候选者的发布列表策略纳入学习目标。
效果:实验结果表明,KDindex优于现有的可学习量化索引方法,比最先进的非详尽方法轻40倍,同时达到相当的召回质量。
One Less Reason for Filter Pruning: Gaining Free Adversarial Robustness with Structured Grouped Kernel Pruning
Shaochen Zhong Zaichuan You Jiamu Zhang Sebastian Zhao Zachary LeClaire Zirui Liu Daochen Zha Vipin Chaudhary Shuai Xu Xia Hu
研究问题:现代结构化剪枝方法在简单对抗攻击下的表现如何?
动机:现有的结构化剪枝方法虽然可以提供即时的压缩和加速效果,但在简单对抗攻击下表现脆弱。
方法:通过公平全面地调查10+种流行的结构化剪枝方法的对抗性能,利用Grouped Kernel Pruning(GKP)将密集结构化剪枝的自由度推向更细粒度的水平,并将内核平滑度这一典型的鲁棒性相关内核级指标混合到修改后的GKP过程中,提出一种一次后训练权重依赖的GKP方法。
效果:这种方法无需额外成本,就能在良性和对抗性规模上推进最先进的性能。
White-Box Transformers via Sparse Rate Reduction
Yaodong Yu Sam Buchanan Druv Pai Tianzhe Chu Ziyang Wu Shengbang Tong Benjamin David Haeffele Yi Ma
研究问题:如何通过压缩和转换数据分布,实现高效的表示学习。
动机:优化目标函数的迭代方案可以自然地将流行的深度网络如变压器视为实现。
方法:通过交替优化互补的目标部分,得到标准的变压器块。其中,多头自注意力操作符可以看作是压缩标记集的梯度下降步骤,而后续的多层感知器则试图稀疏化标记的表示。
效果:实验表明,这些网络确实学会了优化设计的目标,它们压缩并稀疏化了大规模真实世界视觉数据集(如ImageNet)的表示,并且性能非常接近彻底工程化的变压器(如ViT)。
DP-HyPO: An Adaptive Private Framework for Hyperparameter Optimization
Hua Wang Sheng Gao Huanyu Zhang Weijie J Su Milan Shen
研究问题:本文旨在解决在训练私有机器学习模型时,超参数优化可能暴露底层数据集敏感信息的问题。
动机:目前,保护隐私的超参数优化方法通常是随机选择一组超参数进行多次运行,然后报告表现最好的结果,这种方法无法像非私有环境中那样根据先前输出的信息选择下一个候选超参数。
方法:本文提出了DP-HyPO,这是一个开创性的自适应私有超参数优化框架,通过提供全面的差分隐私分析并在实际数据集上进行验证,以缩小私有和非私有超参数优化之间的差距。
效果:实验结果表明,DP-HyPO在各种真实世界数据集上都表现出了良好的效果。
PRIOR: Personalized Prior for Reactivating the Information Overlooked in Federated Learning.
Mingjia Shi Yuhao Zhou Kai Wang Huaizheng Zhang Shudong Huang Qing Ye Jiancheng Lv
研究问题:现有的联邦学习(FL)在保护隐私的同时训练机器学习模型,但由于数据异构性导致本地化模型性能下降。
动机:个性化联邦学习(PFL)通过在本地数据上训练全局模型来合成个性化模型,但这种方法可能会忽略客户端被采样的具体信息。
方法:本文提出了一种新的方案,将个性化先验知识注入每个客户端的全局模型中,以缓解PFL中引入的不完全信息问题。我们的方法的核心是一个框架,即带有Bregman散度的PFL(pFedBreD),它将个性化先验与由Bregman散度正则化的局部目标函数解耦,以适应个性化场景。
效果:实验证明,我们的方法在5个数据集上达到了最先进的性能,并在8个基准测试中比其他方法高出3.5%。广泛的分析验证了所提出设计的鲁棒性和必要性。代码将被公开。
VanillaNet: the Power of Minimalism in Deep Learning
Hanting Chen Yunhe Wang Jianyuan Guo Dacheng Tao
研究问题:如何简化复杂的预训练模型,使其更适应资源有限的环境?
动机:现有的预训练模型由于其复杂性和优化挑战,需要转向更简洁的设计。
方法:提出VanillaNet,一种简洁而强大的神经网络架构,避免使用深度、快捷方式和复杂的操作如自我注意力。每一层都精心设计得简洁明了,训练后会剪裁非线性激活函数以恢复原始架构。
效果:实验证明,VanillaNet的性能与著名的深度神经网络和视觉转换器相当,展示了极简主义在深度学习中的力量。这种开创性的工作有可能重新定义基础模型的格局,为有效和优雅的模型设计开辟新的道路。
Epidemic Learning: Boosting Decentralized Learning with Randomized Communication
Martijn De Vos Sadegh Farhadkhani Rachid Guerraoui Anne-marie Kermarrec Rafael Pires Rishi Sharma
研究问题:本文旨在提出一种名为流行学习(EL)的简单但强大的分散式学习方法,该方法研究问题:本文旨在提出一种名为流行学习(EL)的简单但强大的分散式学习方法,该方法利用不断变化的通信拓扑结构,比传统的深度学习方法更快地实现模型收敛。
动机:在每个EL轮次中,每个节点将其模型更新发送给其他随机选择的$s$个节点(在一个有$n$个节点的系统中)。作者提供了对EL的广泛理论分析,证明其变化的拓扑结构在收敛性能上优于最先进的(静态和动态)拓扑结构。
方法:在每轮EL中,每个节点将其模型更新发送给其他随机选择的$s$个节点。然后,这些节点根据收到的更新来更新自己的模型。这个过程会持续进行,直到模型收敛。
效果:实验结果表明,EL在96个节点的网络中收敛速度比基线深度学习算法快1.7倍,并且在同一通信量下实现了2.2%更高的准确率。
Scattering Vision Transformer: Spectral Mixing Matters
Badri Narayana Patro Vijay Srinivas Agneeswaran
研究问题:解决视觉转换器在处理图像细节和降低计算复杂性方面的挑战。
动机:现有的解决方案如降采样操作会导致信息丢失,且无法恢复。
方法:提出一种名为散射视觉转换器(SVT)的新方法,通过引入光谱散射网络来捕获复杂的图像细节,并通过分离低频和高频组件来解决与降采样操作相关的不可逆问题。
效果:在ImageNet数据集上,SVT取得了最先进的性能,同时显著减少了参数和运算次数。在各种视觉任务中,包括实例分割,SVT也表现出色,并在CIFAR10、CIFAR100、Oxford Flower和Stanford Car等标准数据集上的迁移学习上也优于其他转换器。
Fed-FA: Theoretically Modeling Client Data Divergence for Federated Language Backdoor Defense
Zhiyuan Zhang Deli Chen Hao Zhou Fandong Meng Jie Zhou Xu Sun
研究问题:如何在联邦学习中检测和排除恶意客户端发起的后门攻击。
动机:现有的联邦学习算法在NLP任务中对后门攻击的防御效果不佳,因为文本的离散特征空间注入后门对模型参数统计影响较小,使得后门模式在参数层面隐藏。
方法:提出一种基于f-散度的联邦学习方法Fed-FA,通过理论分析导出f-散度指标来估计客户端数据差异,并设计了一种基于扩散理论的数据集合成方法来解决无法访问数据集的问题。
效果:实验结果表明,Fed-FA在所有自然语言后门攻击场景中都优于所有基于参数距离的方法,能有效防御后门攻击。
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline
Zangwei Zheng Xiaozhe Ren Fuzhao Xue Yang Luo Xin Jiang Yang You
研究问题:如何提高大规模语言模型的推理效率。
动机:尽管大规模语言模型在各种任务上表现出色,但其推理过程的计算成本高昂。
方法:提出一种有效的语言模型推理管道,利用模型准确感知和预测响应长度的能力,并引入一种高效的序列调度技术,将响应长度相似的查询分组为微批次进行处理。
效果:在基于LLaMA的模型上进行真实世界指令数据集的评估,结果显示,该方法在不牺牲效果的情况下,推理吞吐量提高了86%。
ASPEN: Breaking Operator Barriers for Efficient Parallelization of Deep Neural Networks
Jongseok Park Kyungmin Bin Gibum Park Sangtae Ha Kyunghan Lee
研究问题:现有的深度神经网络框架在并行化过程中存在显著的同步障碍,限制了操作间的并行计算范围。
动机:为了解决这一问题,我们提出了一种新的并行计算解决方案ASPEN,通过动态执行和调度来充分利用并行计算机会。
方法:ASPEN将深度学习网络表示为细粒度瓦片的数据流图,消除了操作间同步障碍,实现了细粒度的动态执行。同时,通过在运行时定位和调度这些机会,实现了高度的资源利用率和内存重用。
效果:我们的实验表明,ASPEN在CPU上的实现性能优异,比TorchScript和TVM等最先进的推理系统提高了3.2倍和4.3倍。
Large-Scale Distributed Learning via Private On-Device LSH
Tahseen Rabbani Marco Bornstein Furong Huang
研究问题:如何有效地在计算和存储有限的设备上进行局部敏感哈希(LSH)分析?
动机:现有的LSH算法需要对全层权重进行随机投影,这在计算和存储有限的设备上是不现实的。
方法:我们开发了一种新的哈希函数家族,创建了第一个私有的、个性化的、内存高效的设备上的LSH框架。这个框架允许每个设备生成哈希表,而无需中心主机的帮助,使用设备特定的哈希超参数。
效果:我们的框架通过生成压缩的全权重集的哈希表,并可以串行生成和丢弃,如果过程是内存密集型的,从而避免了设备保持(i)全尺寸模型和(ii)大量的哈希表在本地内存中进行LSH分析。实验证明,与其他假设无限制的设备容量的LSH框架相比,我们的框架在训练大规模的推荐网络方面具有竞争力。
Bypass Exponential Time Preprocessing: Fast Neural Network Training via Weight-Data Correlation Preprocessing
Josh Alman Jiehao Liang Zhao Song Ruizhe Zhang Danyang Zhuo
研究问题:如何减少深度神经网络训练中的计算时间?
动机:随着神经网络模型规模的增大,模型训练消耗的计算资源也在增加。
方法:提出一种新的预处理方法,通过在树形数据结构中存储权重-数据相关性,快速动态检测每轮迭代中哪些神经元被激活。
效果:该方法仅需要$O(nmd)$的时间进行预处理,并在每轮迭代中仍能达到$o(nmd)$的时间效率。同时,论文还提供了对此算法的下界证明。
Improving Robustness with Adaptive Weight Decay
Amin Ghiasi Ali Shafahi Reza Ardekani
研究问题:如何提高预训练语言模型在知识驱动任务上的性能,同时在其他常见的NLP任务上与最先进的BERT模型相媲美。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,本文提出利用知识图谱中的有信息量的实体来增强语言表示。
方法:采用大规模文本语料库和知识图谱联合训练ERNIE模型,能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。此外,还提出了自适应权重衰减方法,可以自动调整权重衰减的超参数,从而提高对抗鲁棒性,无需额外的数据集和架构选择。
Beyond Exponential Graph: Communication-Efficient Topologies for Decentralized Learning via Finite-time Convergence
Yuki Takezawa Ryoma Sato Han Bao Kenta Niwa Makoto Yamada
研究问题:如何设计一种既有快速共识率又有小最大度的拓扑结构以提高分散式学习的收敛速度和准确性。
动机:现有的快速共识率的拓扑结构,如指数图,由于其大的最大度导致显著的通信成本。因此,寻找具有快速共识率和小最大度的拓扑结构是重要的。
方法:提出一种新的拓扑结构,名为Base-(k+1)图,它结合了快速共识率和小最大度的优点。与现有拓扑结构不同,Base-(k+1)图能让所有节点在有限迭代次数后达到精确共识。
效果:实验结果表明,Base-(k+1)图使各种分散式学习方法比现有拓扑结构具有更高的精度和更好的通信效率。
Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models
Qiong Wu Wei Yu Yiyi Zhou Shubin Huang Xiaoshuai Sun Rongrong Ji
研究问题:本文旨在解决视觉-语言预训练模型(VLP)在下游任务适应中参数和计算开销过大的问题。
动机:目前的方法主要集中在通过只更新少量参数来进行参数高效的转移学习,但计算冗余仍然困扰着VLP的应用。
方法:本文提出了一种新颖的动态架构跳跃(DAS)方法,用于实现有效的参数和计算高效的转移学习。该方法首先通过基于强化学习的过程观察VLP模型模块对下游任务的重要性,然后根据获得的奖励跳过冗余的模块,使用轻量级网络(即适配器)进行优化。
效果:实验结果表明,DAS不仅能有效降低计算复杂度,而且在参数规模和性能方面与现有的参数高效转移学习方法具有竞争力。
Q-DM: An Efficient Low-bit Quantized Diffusion Model
Yanjing Li Sheng Xu Xianbin Cao Xiao Sun Baochang Zhang
研究问题:去噪扩散生成模型虽然能生成高质量的数据,但由于使用全精度网络进行迭代噪声估计,其计算成本高。
动机:为了降低计算和内存消耗,研究人员尝试对扩散模型进行量化处理,但低比特噪声估计网络在扩散模型中的表现远不如全精度网络。
方法:本文提出了一种时间步感知量化(TaQ)方法和一种噪声估计模拟(NeM)方案,分别用于消除低比特量化扩散模型中的激活分布振荡和累积量化误差。
效果:实验结果表明,这种方法在流行的DDPM和DDIM模型上取得了显著的改进。例如,理论上4比特的Q-DM可以将1000步的DDPM加速7.8倍,并在CIFAR-10无条件下的数据集上获得5.17的FID分数。
Efficient Activation Function Optimization through Surrogate Modeling
Garrett Bingham Risto Miikkulainen
研究问题:设计有效的激活函数对于提升神经网络在许多机器学习任务中的性能至关重要,但人类难以构造最优的激活函数,且现有的激活函数搜索算法成本过高。
动机:本文旨在通过三个步骤改进现有技术:首先,创建了基准数据集Act-Bench-CNN、Act-Bench-ResNet和Act-Bench-ViT,通过使用2913个系统生成的激活函数从零开始训练卷积、残差和视觉变换器架构;其次,开发了基准空间的特征描述,提出了一种新的基于替代物的优化方法;最后,使用替代物在几个实际任务中发现改进的激活函数。
方法:通过系统地生成大量的激活函数并训练模型,创建了基准数据集;通过对模型预测分布和激活函数输出分布的谱进行分析,发现了一种高度预测性能的方法;利用这种方法在多个实际任务中寻找更好的激活函数。
效果:实验结果表明,所提出的基于替代物的优化方法可以在多个实际任务中找到优于其他激活函数的新激活函数,挑战了深度学习中一直使用整流非线性函数的现状。这些步骤各自都是一项独立的贡献,共同为进一步研究激活函数优化提供了实践和理论基础。
Scale-Space Hypernetworks for Efficient Biomedical Image Analysis
Jose Javier Gonzalez Ortiz John Guttag Adrian V Dalca
研究问题:如何平衡卷积神经网络在医学图像分析任务中的计算效率和准确性。
动机:现有的卷积神经网络模型在处理体积数据时计算密集,通过调整网络中下采样和上采样层的缩放因子可以在精度和计算效率之间进行权衡,但探索这种权衡关系的成本过高。
方法:提出一种称为Scale-Space HyperNetworks(SSHN)的方法,该方法学习一系列具有不同内部缩放因子的卷积神经网络,通过训练少量的SSHN,可以匹配甚至超越训练许多具有固定缩放因子的网络的结果。
效果:在多个医学图像分析应用中展示了这种方法,与使用固定和动态缩放因子的策略相比,SSHN始终能以更低的训练成本提供更好的精度-效率权衡。
Gradient Flossing: Improving Gradient Descent through Dynamic Control of Jacobians
Rainer Engelken
研究问题:训练循环神经网络(RNNs)由于长时序的梯度不稳定,导致梯度爆炸和消失的问题。
动机:近期研究发现这些问题与Lyapunov指数有关,该指数描述了无限小扰动的增长或收缩。
方法:提出梯度熔断法,通过在训练过程中将前向动力学的Lyapunov指数推向零来解决梯度不稳定问题。这通过使用可微分线性代数进行反向传播来正则化Lyapunov指数实现。
效果:实验表明,梯度熔断不仅可以控制梯度范数,还可以控制长期雅可比矩阵的条件数,促进多维误差反馈传播。在涉及长时序的任务中,应用梯度熔断可以显著提高成功率和收敛速度。
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model
Haixin Wang Xinlong Yang Jianlong Chang Dian Jin Jinan Sun Shikun Zhang Xiao Luo Qi Tian
研究问题:如何进一步降低复杂度,实现轻量级设计,并在极低参数下增强模态间的对齐。
动机:随着大规模预训练的进步,参数高效的迁移学习在人工智能的不同子领域中越来越受欢迎。但如何在低参数下提高模态间对齐的问题尚未解决。
方法:提出了一种优雅的跨模态转换框架AURORA。首先利用模态近似生成0.1M可训练参数进行多模态参数高效调优,然后为了更好的模态对齐,在极低参数的场景下提出了信息上下文增强和门控查询转换模块。
效果:在六个跨模态基准测试中表现出色,不仅优于最先进的技术,甚至优于完全微调的方法。
SPACE: Single-round Participant Amalgamation for Contribution Evaluation in Federated Learning
Yi-Chung Chen Hsi-Wen Chen Shun-Guei Wang Ming-Syan Chen
研究问题:联邦学习中参与者贡献的评估问题。
动机:现有的评估方法主要依赖于计算成本高的Shapley值,且需要多次通信轮次。
方法:提出一种名为SPACE的高效评估方法,通过联合知识融合和原型模型评估两个新组件,消除对验证集大小的依赖,实现单轮通信中的参与者评估。
效果:实验结果表明,SPACE在运行时间和皮尔森相关系数上优于现有方法,并在应用、客户端重权和客户端选择等方面表现出有效性。
Improved Communication Efficiency in Federated Natural Policy Gradient via ADMM-based Gradient Updates
Guangchen Lan Han Wang James Anderson Christopher Brinton Vaneet Aggarwal
研究问题:如何在不共享个体数据的情况下,让代理进行协作训练全局策略,同时降低通信开销。
动机:联邦强化学习(FedRL)允许代理进行协作训练全局策略,但高通信开销是一个关键瓶颈,尤其是在使用自然梯度方法的二次优化中。
方法:提出FedNPG-ADMM框架,利用交替方向乘子法(ADMM)高效地近似全局自然梯度方向。通过理论证明,使用ADMM基础的梯度更新可以将每次迭代的通信复杂度从O(d²)降低到O(d),其中d是模型参数的数量。
效果:在MuJoCo环境中进行的评估表明,FedNPG-ADMM保持了标准FedNPG的奖励性能,并且其收敛速度在联邦代理数量增加时有所提高。
VCC: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
Zhanpeng Zeng Cole Hawkins Mingyi Hong Aston Zhang Nikolaos Pappas Vikas Singh Shuai Zheng
研究问题:如何提高Transformers在超长序列上的效率?
动机:尽管已有研究致力于降低Transformers的二次成本,但处理超过16K个标记的超长序列仍然具有挑战性。
方法:提出VIP-token中心压缩(VCC)方案,通过压缩序列到每个层更小的表示来显著提高Transformers在超长序列上的效率。
效果:与竞争性基线相比,该算法不仅效率高(在4K和16K长度上比基线实现了超过3倍的计算效率增益),而且在大量任务上提供了竞争力/更好的性能。此外,我们的算法可以扩展到128K个标记(或更多),同时始终保持准确性提升。
Probabilistic Weight Fixing: Large-scale training of neural network weight uncertainties for quantisation.
Chris Subia-Waud Srinandan Dasmahapatra
研究问题:如何通过将权重限制在一组有限的值中,减少大型神经网络在推理过程中的能量消耗。
动机:现有的方法通常假设权重仅基于值进行处理,忽视了权重位置的独特作用。
方法:本文提出了一种基于贝叶斯神经网络(BNNs)的概率框架和一种变分松弛法,根据各自特定位置学习的不确定性分布来确定哪些权重可以移动到哪个聚类中心以及移动的程度。
效果:通过利用概率分布的权重灵活性,增强了噪声韧性和压缩性。与最先进的方法相比,我们的迭代聚类过程在ResNet模型和更复杂的基于变压器的架构上表现出更好的压缩性和更高的精度。特别是在ImageNet上,使用DeiT-Tiny,我们的方法是最先进的量化方法top-1准确率高出1.6%,其500万+的权重现在仅由296个唯一值表示。
Federated Learning via Meta-Variational Dropout
Insu Jeon Minui Hong Junhyeog Yun Gunhee Kim
研究问题:传统的联邦学习在实际应用中面临模型过拟合和由于客户端数据有限且非独立同分布导致本地模型分歧的问题。
动机:为了解决这些问题,我们提出了一种新的贝叶斯元学习方法,称为元变分dropout(MetaVD)。
方法:MetaVD通过一个共享的超网络来预测与客户端相关的dropout率,使得在有限的非独立同分布数据设置下,联邦学习算法能够进行有效的个性化。
效果:我们在各种稀疏和非独立同分布的联邦学习数据集上进行了广泛的实验。MetaVD展示了优秀的分类准确率和不确定性校准性能,尤其是在处理分布外(OOD)客户端时。此外,MetaVD压缩了每个客户端所需的本地模型参数,从而减轻了模型过拟合并降低了通信成本。
Learning Large Graph Property Prediction via Graph Segment Training
Kaidi Cao Phitchaya Mangpo Phothilimthana Sami Abu-El-Haija Dustin Zelle Yanqi Zhou Charith Mendis Jure Leskovec Bryan Perozzi
研究问题:如何有效地预测大型图的属性,同时在训练过程中保持有限的内存使用。
动机:大型图的预测需要对整个图的知识有全面了解,但训练过程中可用的内存有限。
方法:提出一种名为Graph Segment Training(GST)的通用框架,采用分而治之的方法进行大型图属性预测的学习,使内存使用量保持恒定。GST首先将大型图分割成多个片段,然后在每次训练迭代中只对少数几个片段进行反向传播。
效果:通过引入历史嵌入表来高效地获取未被采样用于反向传播的片段的嵌入,并设计了两种新颖的技术来减少陈旧嵌入的影响。实验证明,GST-EFD(包含所有技术)在两个大型图属性预测基准测试中表现优秀,不仅内存效率高且速度快,而且在测试准确率上也略高于典型的全图训练方案。
Deep Patch Visual Odometry
Zachary Teed Lahav Lipson Jia Deng
研究问题:本文旨在提出一种新的单目视觉里程计深度学习系统,即深度补丁视觉里程计(DPVO)。
动机:虽然现有的视觉里程计方法通过使用深度网络预测视频帧之间的密集流来显著提高了最先进的准确性,但这种方法的计算成本高,使得这些先前的方法在许多应用场景中并不实用。
方法:DPVO采用一种新颖的循环网络架构,用于跟踪图像补丁随时间的变化。同时,DPVO引入了一种新颖的基于补丁的对应关系循环更新算子和可微分束调整。
效果:实验结果表明,DPVO在所有标准基准上都优于所有先前的工作,包括使用三分之一内存且平均运行速度为3倍快的学习型最先进的视觉里程计系统(DROID)。
You Only Condense Once: Two Rules for Pruning Condensed Datasets
Yang He Lingao Xiao Joey Tianyi Zhou
研究问题:如何在设备上通过减少训练数据集的大小来提高训练效率。
动机:设备上的计算资源有限,需要一种方法来灵活调整数据集大小并避免额外的压缩过程。
方法:提出了一种名为“You Only Condense Once”(YOCO)的方法,该方法在一次压缩的数据集基础上,通过两个简单的数据集剪枝规则(低LBPE得分和平衡构建)生成更小的压缩数据集。
效果:实验证明,YOCO在ConvNet、ResNet和DenseNet等网络上以及在CIFAR-10、CIFAR-100和ImageNet等数据集上都取得了优秀的效果,例如,在CIFAR-10上,YOCO超过了各种数据集压缩和数据集剪枝方法,实现了6.98%-8.89%和6.31%-23.92%的准确率提升。代码已在GitHub上开源。
A Computation and Communication Efficient Method for Distributed Nonconvex Problems in the Partial Participation Setting
Alexander Tyurin Peter Richtárik
研究问题:本文提出了一种结合分布式优化和联邦学习的新方法,包括随机梯度的方差减少、部分参与和压缩通信三个关键组件。
动机:为了解决联邦学习中节点参与度低、通信开销大的问题,作者提出了一种新的优化方法。
方法:通过引入随机梯度的方差减少、部分参与和压缩通信三个关键组件,实现了在不全部参与所有节点、无需限制梯度(相似性)的前提下,达到最优的查询复杂度和最先进的部分参与设置下的通信复杂度。
效果:实验证明,该方法无论是否具有通信压缩特性,都能成功结合方差减少和部分参与,达到最优查询复杂度,不需要所有节点的参与,也不需要限制梯度(相似性)的假设。
Module-wise Training of Neural Networks via the Minimizing Movement Scheme
Skander Karkar Ibrahim Ayed Emmanuel de Bezenac patrick gallinari
研究问题:解决神经网络在有限内存设备上训练时,早期层过拟合和深层停止增加测试准确度的问题。
动机:贪婪的逐层或逐模块训练在有限的内存设备上具有吸引力,但存在停滞问题。
方法:通过引入一种简单的模块正则化方法来解决这个问题,该方法受分布空间中梯度流最小运动方案的启发。
效果:实验表明,当添加这种正则化方法时,各种架构(如ResNets、Transformers和VGG)的模块训练准确性有所提高,优于其他模块训练方法,通常比端到端训练更好,内存使用量减少了60%。
Rubik's Cube: High-Order Channel Interactions with a Hierarchical Receptive Field
Naishan Zheng Man Zhou Chong Zhou Chen Change Loy
研究问题:本文旨在解决图像恢复技术中,如卷积和变换器等方法主要利用基础的一阶通道交互,未最大化高阶建模的潜力的问题。
动机:为了充分利用通道维度内的关系,并提高图像恢复的效率和性能,我们提出了一种简单而有效的高阶通道操作符。
方法:我们的方法遵循零FLOP和零参数原则,使用跨通道组的空间移动机制。通过将有利的通道交互和聚合能力转化为元素级的乘法和$1 times 1$核的卷积单元,我们的新公式将先前工作中看到的一阶通道交互扩展到任意高阶,生成类似魔方的分层感受野。
效果:我们在各种低层视觉任务上进行了实验,包括图像去噪、低光图像增强、引导图像超分辨率和图像去模糊。结果一致表明,我们的魔方卷积运算在所有任务上都提高了性能。
Scaling Laws for Hyperparameter Optimization
Arlind Kadra Maciej Janowski Martin Wistuba Josif Grabocka
研究问题:本文旨在解决深度学习中超参数优化的问题,特别是如何利用学习曲线的幂律性质进行贝叶斯优化。
动机:尽管目前已有许多超参数优化方法,但大多数并未充分利用学习曲线的幂律特性。因此,本文提出了一种新的方法——深度幂律(DPL),该方法通过构建一个神经网络模型集合,使预测结果遵循幂律缩放模式,从而更好地进行超参数优化。
方法:我们的方法动态决定哪些配置需要暂停和逐步训练,这是通过使用灰盒评估实现的。我们在三个与表格、图像和NLP数据集相关的基准测试上,与7种最先进的竞争对手进行了比较,涵盖了59个不同的任务。
效果:实验结果表明,我们的方法在所有基准测试上都取得了最好的效果,无论是任何时候的结果,都优于所有竞争对手。
Chanakya: Learning Runtime Decisions for Adaptive Real-Time Perception
Anurag Ghosh Vaibhav Balloli Akshay Nambi Aditya Singh Tanuja Ganu
研究问题:实时感知需要计划的资源利用,但如何平衡准确性和延迟性是一个挑战。
动机:早期的运行时执行框架采用基于规则的决策算法,并使用固定的算法延迟预算来平衡这些考虑因素,这是次优且不灵活的。
方法:我们提出了Chanakya,一种从流感知范式自然衍生出来的学习近似执行框架,用于自动学习由这些权衡产生的决策。Chanakya通过新颖的奖励机制平衡准确性和延迟性进行训练,无需对任何一个目标进行近似。
效果:Chanakya同时考虑内在和外在的上下文,并以灵活的方式预测决策。在公共数据集上,无论是在服务器GPU还是边缘设备上,Chanakya都优于最先进的静态和动态执行策略。
Global Update Tracking: A Decentralized Learning Algorithm for Heterogeneous Data
Sai Aparna Aketi Abolfazl Hashemi Kaushik Roy
研究问题:如何设计一种去中心化学习方法,降低设备间数据分布差异对模型性能的影响。
动机:在实际应用中,由于设备间的数据分布可能存在显著差异,这可能会降低模型的性能。
方法:提出了一种名为全局更新追踪(GUT)的基于追踪的方法,旨在减轻异构数据在去中心化学习中的影响,而不引入任何通信开销。
效果:通过在各种计算机视觉数据集(CIFAR-10、CIFAR-100、Fashion MNIST和ImageNette)、模型架构和网络拓扑上进行大量实验,证明了该方法的有效性。与其他现有技术相比,该方法在测试准确性方面实现了1-6%的改进,达到了最先进的水平。
Binarized Spectral Compressive Imaging
Yuanhao Cai Yuxin Zheng Jing Lin Xin Yuan Yulun Zhang Haoqian Wang
研究问题:如何有效地在资源有限的移动设备上进行高光谱图像(HSI)重建。
动机:现有的深度学习模型虽然在HSI重建方面表现良好,但需要强大的硬件和大量的内存和计算资源,难以部署在资源有限的移动设备上。
方法:本文提出了一种新颖的高效实用方法——二值化光谱重分布网络(BiSRNet),用于从快照压缩成像(SCI)系统中的压缩测量中恢复HSI。首先重新设计了一个紧凑且易于部署的基线模型进行二值化,然后提出了基本的单元——二值化光谱重分布卷积(BiSR-Conv)。基于我们的BiSR-Conv,我们定制了四个二值化卷积模块来解决维度不匹配问题,并在整张网络上传播全精度信息。最后,通过使用提出的技术对基线模型进行二值化,得到了我们的BiSRNet。
效果:全面的定量和定性实验表明,我们提出的BiSRNet优于最先进的二值化算法。代码和模型可在https://github.com/caiyuanhao1998/BiSCI上公开获取。
BiMatting: Efficient Video Matting via Binarization
Haotong Qin Lei Ke Xudong Ma Martin Danelljan Yu-Wing Tai Chi-Keung Tang Xianglong Liu Fisher Yu
研究问题:实时视频抠图在边缘设备上面临重大的计算资源限制,限制了其在在线会议和短视频制作等应用中的广泛使用。
动机:二值化是一种强大的压缩方法,通过使用1位参数和位操作大大减少了计算和内存消耗。然而,视频抠图模型的二值化过程并不简单,我们的实证分析揭示了两个主要瓶颈:编码器严重的表现退化和解码器大量的冗余计算。
方法:我们提出了BiMatting,一种使用二值化的准确且高效的视频抠图模型。具体来说,我们构建了可收缩和密集的二值化编码器块拓扑结构以增强提取的表示。我们通过稀疏化二值化单元来减少低信息解码计算。
效果:通过大量实验,我们发现BiMatting比其他二值化的视频抠图模型(包括最先进的二值化方法)有显著的性能提升。我们的方法甚至与全精度模型在视觉质量上相当。此外,BiMatting在计算和存储方面分别实现了12.4倍和21.6倍的显著节省,展示了其在实际资源受限场景中的巨大潜力和优势。
Unlocking Deterministic Robustness Certification on ImageNet
Kai Hu Andy Zou Zifan Wang Klas Leino Matt Fredrikson
研究问题:尽管基于Lipschitz的方法在深度学习中具有确定性保证,但目前最先进的研究问题:尽管基于Lipschitz的方法在深度学习中具有确定性保证,但目前最先进的结果仅限于低维数据的前馈卷积网络(如CIFAR-10)。
动机:本论文探讨了如何将可证明的鲁棒训练扩展到更大、更深的模型。
方法:设计了一种新的残差块,即线性残差网络(LiResNet)架构,并引入了效率边界最大化(EMMA)损失函数,通过同时惩罚多个类别的最坏情况对抗样本来稳定鲁棒训练。
效果:这些贡献使得新的线性残差网络在CIFAR-10/100和Tiny-ImageNet上取得了最新的鲁棒精度。此外,首次将快速确定性鲁棒性保证扩展到ImageNet,证明了这种鲁棒学习方法可以应用于实际应用场景。
Learning To Dive In Branch And Bound
Max B. Paulus Andreas Krause
研究问题:如何利用混合整数线性规划中的原始启发式方法,特别是深潜启发式方法,来寻找可行的解决方案,以便于分支和边界搜索。
动机:现有的深潜启发式方法依赖于通用的决策规则,无法充分利用实践中经常出现的相似问题实例之间的结构共性。因此,提出了L2Dive方法,通过图神经网络学习特定的深潜启发式方法。
方法:L2Dive训练生成模型预测变量分配,并利用线性程序的对偶性基于模型的预测做出深潜决策。L2Dive完全集成到开源求解器SCIP中。
效果:实验结果表明,L2Dive在一系列组合优化问题上优于标准深潜方法,找到了更好的可行解。对于来自服务器负载平衡和神经网络验证的实际应用,L2Dive在调优(默认)求解器基线上将原始-对偶积分提高了平均7%(35%),并将平均求解时间减少了20%(29%)。
Lookup Table meets Local Laplacian Filter: Pyramid Reconstruction Network for Tone Mapping
Feng Zhang Ming Tian Zhiqiang Li Bin Xu Qingbo Lu Changxin Gao Nong Sang
研究问题:本文旨在解决全局操作的3D查找表方法在局部区域效果不佳的问题,以改善色调映射的效果。
动机:目前的3D查找表方法在进行色调映射时,由于其基于像素值的全局操作特性,无法充分利用关键的局部信息,导致在局部区域的映射效果不佳。
方法:本文提出了一种新颖的策略,通过使用闭型拉普拉斯金字塔分解和重建来整合全局和局部操作符。具体来说,我们利用图像自适应的3D LUTs对低频图像进行色调处理,同时利用频率信息的特性。此外,我们还采用局部拉普拉斯滤波器以自适应的方式优化高频成分的边缘细节。
效果:我们在两个基准数据集上进行了广泛的实验,结果表明,该方法在全局色调处理和局部边缘保留方面均优于现有方法。
Towards Higher Ranks via Adversarial Weight Pruning
Yuchuan Tian Hanting Chen Tianyu Guo Chao Xu Yunhe Wang
研究问题:如何有效地在边缘设备上部署卷积神经网络(CNNs)。
动机:由于高计算和存储复杂性,现有的网络剪枝方法难以在边缘设备上部署。
方法:提出一种基于排名的剪枝(RPG)方法,通过最小化权重矩阵的低秩近似误差并最大化它们的距离,将稀疏权重引导向高维拓扑结构。
效果:在各种数据集和任务上的实验结果表明,该方法在高稀疏度下非常有效,在ImageNet上使用ResNet-50模型实现了98%的稀疏度,比最先进的性能提高了1.13%。
Aligning Optimization Trajectories with Diffusion Models for Constrained Design Generation
Giorgio Giannone Akash Srivastava Ole Winther Faez Ahmed
研究问题:如何在数据有限且需要高精度的约束环境中,优化生成模型的性能?
动机:尽管生成模型在视觉和语言领域取得了显著影响,但在科学和工程领域中,特别是在数据有限且需要高精度的约束环境中,传统基于物理的优化方法往往优于生成模型。
方法:介绍了扩散优化模型(DOM)和轨迹对齐(TA),这是一种学习框架,通过将扩散模型的采样轨迹与基于物理的迭代优化方法产生的轨迹对齐,确保采样过程始终基于底层物理原理进行。
效果:实验结果表明,TA在内部分布配置上优于最先进的深度生成模型,并在推理计算成本上减半。当与少数几步优化结合时,它还提高了外部分布条件的可制造性。DOM的效率和性能改进大大加快了设计过程,并将其引向最优和可制造的结果,突显了生成模型在数据驱动设计中的潜力。
topic-4
neural networks graph network learning deep graphs structure
Spatial-frequency channels, shape bias, and adversarial robustness
Ajay Subramanian Elena Sizikova Najib J. Majaj Denis G. Pelli
研究问题:人类和神经网络使用何种空间频率信息来识别对象?
动机:通过神经科学中的关键频带掩蔽工具,可以揭示用于对象识别的频率选择性过滤器。
方法:将关键频带掩蔽作为网络与人类的比较任务,并在16种ImageNet分类中测试了14名人类和76个神经网络在窄带噪声存在的情况下的表现。
效果:研究发现,人类在自然图像中识别物体使用的是与字母和光栅相同的一个倍频宽的通道,这是人类对象识别的标准特征。而神经网络的通道比人类通道要宽2-4倍,这意味着网络通道扩展到了高于或低于人类敏感的频率范围。因此,在这些频率上的噪声会损害网络性能,但对人的性能没有影响。对抗性训练和增强图像训练常用于提高网络的鲁棒性和塑造偏见。这种训练是否使网络和人类的物体识别通道对齐?网络通道的三个属性(带宽、中心频率、峰值噪声敏感性)与形状偏见(51%的方差解释)和对抗性训练的网络鲁棒性(66%的方差解释)有很强的相关性。对抗性训练提高了鲁棒性,但使通道带宽进一步扩展到超过人类带宽的范围。因此,关键频带掩蔽揭示了网络通道比人类通道宽两倍以上,而对抗性训练只会使其变得更糟。具有较窄通道的网络可能更具鲁棒性。
Clifford Group Equivariant Neural Networks
David Ruhe Johannes Brandstetter Patrick Forré
研究问题:本文提出了一种构建O(n)和E(n)等变模型的新方法,即Clifford群等变神经网络。
动机:为了解决传统神经网络在处理高维数据时的问题,本文引入了Clifford群等变神经网络,该网络能够更好地处理多向量的几何乘积结构。
方法:通过研究Clifford群及其在Clifford代数中的作用,本文提出了一种新的参数化等变神经网络层的方法。该方法可以优雅地推广到任意维度的内积空间。
效果:实验结果表明,本文提出的Clifford群等变神经网络在多个任务上取得了最先进的性能,包括三维n体问题、四维洛伦兹等变高能物理实验和五维凸包实验。
Emergence of Shape Bias in Convolutional Neural Networks through Activation Sparsity
Tianqin Li Ziqi Wen Yangfan Li Tai Sing Lee
研究问题:目前的深度学习模型在物体识别上对纹理有强烈的偏好,而人类视觉系统则偏向于形状和结构。如何设计出能引入更多形状偏好的深度学习模型?
动机:人类视觉系统的设计与深度学习模型在物体识别上的偏好存在差异,本研究旨在找出人类视觉系统中的设计原则,并将其引入到深度学习模型中。
方法:通过使用稀疏编码这一大脑中普遍存在的原则,可以给网络引入形状偏好。研究发现,通过非微分Top-K操作来强制稀疏编码约束,可以使卷积神经网络中的神经元出现结构编码,从而将物体平滑分解为部分和子部分,使网络具有形状偏好。
效果:实验表明,这种形状偏好的出现及其在不同网络结构和数据集上的功能效益。对于物体识别的卷积神经网络,形状偏好可以提高其对抗风格和模式变化干扰的鲁棒性。对于图像合成的生成对抗网络,出现的形状偏好可以使合成的图像具有更连贯和可分解的结构。消融研究显示,稀疏码趋向于编码结构,而更分散的码则倾向于偏好纹理。
Going beyond persistent homology using persistent homology
Johanna Emilia Immonen Amauri H Souza Vikas Garg
研究问题:本文旨在解决图神经网络(MP-GNNs)在表示能力上的限制,特别是在研究问题:本文旨在解决图神经网络(MP-GNNs)在表示能力上的限制,特别是在同构性检测的Weisfeiler-Leman(WL)测试方面。
动机:尽管通过持久同调(PH)增强这些图模型以获取拓扑特征已经取得了显著的效果,但确定PH可以识别的有属性图的类别仍然是一个开放的问题。
方法:本文提出了一种新的颜色分离集概念,为解决这个重要问题提供了完整的解决方案。具体来说,我们建立了基于顶点和边颜色的滤波函数得到的连通分量的持久性的图之间区分的必要和充分条件。
效果:利用这些理论洞察,我们提出了RePHINE用于学习图形上的拓扑特征。RePHINE有效地结合了顶点和边级别的PH,实现了一个比两者都强大的方案。将RePHINE集成到MP-GNNs中增强了它们的表达能力,在几个图分类基准测试中超过了标准的PH。
Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization
Kaiyue Wen Zhiyuan Li Tengyu Ma
研究问题:尽管已有大量研究,但过参数化神经网络为何能泛化的原因仍然不明确。
动机:现有的理论表明,常见的随机优化器倾向于选择训练损失的较平坦的最小值,因此自然的潜在解释是平坦度意味着泛化。
方法:通过理论和实证研究,我们为两层ReLU网络确定了以下三种情况:(1)平坦度必然意味着泛化;(2)存在非泛化的最平坦模型,锐度最小化算法无法泛化;(3)最引人注目的是,存在非泛化的最平坦模型,但锐度最小化算法仍然可以泛化。
效果:我们的研究结果表明,锐度和泛化之间的关系微妙地取决于数据分布和模型架构,并且锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找其他解释来解释过参数化神经网络的泛化能力。
The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks
Ziqian Zhong Ziming Liu Max Tegmark Jacob Andreas
研究问题:训练在算法任务上的神经网络是否能可靠地重新发现已知的算法?
动机:最近的一些研究表明,神经网络可以从训练集中学习到算法。然而,对于模块化加法问题,我们发现神经网络学习算法的过程可能更复杂。
方法:我们使用模块化加法作为原型问题,通过改变模型的超参数和初始化,观察神经网络是否能够学习到不同的算法。
效果:实验结果显示,神经网络不仅可以学习到已知的“时钟”算法,还能学习到一个之前未被描述、理解起来较困难但可解释的“披萨”算法,以及一系列更为复杂的过程。这些结果表明,即使是简单的学习问题,也可能有令人惊讶的解决方案多样性。
Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models
Guillermo Ortiz-Jimenez Alessandro Favero Pascal Frossard
研究问题:任务算术在视觉-语言模型中的效果及其基本原理。
动机:任务算术是一种直接在权重空间编辑预训练模型的有效且可扩展的方法,但其效果和原理尚未完全理解。
方法:通过添加不同任务的微调权重,研究了任务算术在视觉-语言模型中的有效性,并发现权重解耦是其有效的关键因素。
效果:研究发现,通过线性化模型在其切空间进行微调可以放大权重解耦,从而显著提高多个任务算术基准的性能。同时,建立了任务算术与神经切线核(NTK)本征函数的空间定位之间的紧密联系。
Abide by the law and follow the flow: conservation laws for gradient flows
Sibylle Marcotte Rémi Gribonval Gabriel Peyré
研究问题:理解梯度下降动力学的几何性质是揭示大型机器学习模型近期成功的关键。
动机:过参数化模型在训练过程中保留了优化初始化的一些属性,这种“隐含偏见”被认为是已训练模型一些有利特性的原因,并可以解释其良好的泛化性能。
方法:我们严格地定义了“守恒定律”,明确了在任何训练数据和任何损失下,给定模型(如具有特定架构的ReLU网络)的梯度流中保留的量的守恒性,并通过对模型雅可比矩阵生成的李代数进行有限维代数操作,找出最大数量的独立守恒定律。
效果:我们提供了一系列的算法,包括计算一族多项式定律、计算最大数量的(不一定是多项式)独立守恒定律。通过应用这两种算法,我们确认了对于多个ReLU网络架构,所有已知的定律都被算法恢复,并且没有其他独立的定律。这些计算工具为理解大型机器学习模型中优化初始化的理想特性铺平了道路。
Uncovering motifs of concurrent signaling across multiple neuronal populations
Evren Gokcen Anna Ivic Jasper Alison Xu Adam Kohn Christian K. Machens Byron M. Yu
研究问题:如何描述和理解不同脑网络中不同神经群体的多维、并发信号流。
动机:现代记录技术使我们能够从不同的大脑网络中记录来自不同神经群体的信号,但需要新的理论和统计框架来描述这些多维、并发的信号流。
方法:开发了一种降维框架,该框架可以确定(1)每个潜在维度描述的神经群体子集,(2)这些群体之间的信号流方向,以及(3)信号如何在实验试验内和跨试验中随时间演化。
效果:通过模拟和对先前研究的猕猴视觉区域V1和V2的神经群体记录的应用,验证了该方法的有效性。进一步研究了V1、V2和V3d的选择性通讯,并发现其与它们的视网映射有关。这项工作推动了多个神经群体并发信号研究的发展。
Towards Automated Circuit Discovery for Mechanistic Interpretability
Arthur Conmy Augustine N. Mavor-Parker Aengus Lynch Stefan Heimersheim Adrià Garriga-Alonso
研究问题:如何系统化地理解Transformer模型的复杂行为。
动机:现有的工作通过大量的努力和直觉,反向工程了Transformer模型的一些复杂行为,但这个过程需要手动操作且耗时。
方法:本文提出了一种自动化的方法来找到构成电路的抽象神经网络单元之间的连接。我们提出了几种算法,并通过重现以前的可解释性结果来验证它们。
效果:例如,ACDC算法重新发现了GPT-2 Small中计算大于操作的电路中的5/5组件类型。ACDC选择了GPT-2 Small中的68个边,所有这些边都是以前手动发现的。我们的代码可以在https://github.com/ArthurConmy/Automatic-Circuit-Discovery上找到。
Exploring Geometry of Blind Spots in Vision models
Sriram Balasubramanian Gaurang Sriramanan Vinu Sankar Sadasivan Soheil Feizi
研究问题:深度神经网络对微小的扰动非常敏感,即对抗性攻击。同时,也有观察表明深度网络可能对输入空间的大范围扰动不敏感。
动机:本研究旨在详细研究视觉模型(如CNN和Transformers)中的不敏感性现象,并呈现研究这种网络“等信心”水平集的几何形状和范围的技术。
方法:提出了一种水平集遍历算法,该算法使用局部梯度的正交分量迭代地探索与输入空间相关的高信心区域。给定一个源图像,我们使用此算法来识别与源图像处于同一等信心水平集的输入,尽管它们与来自其他类别的任意图像在感知上相似。
效果:我们发现源图像通过高信心路径线性连接到这些输入,揭示了深度网络水平集的星状结构。此外,我们还试图识别和估计模型保持高度信心的这些连接的更高维区域的广度。
Locality Sensitive Hashing in Fourier Frequency Domain For Soft Set Containment Search
Indradyumna Roy Rishi Agarwal Soumen Chakrabarti Anirban Dasgupta Abir De
研究问题:在与段落检索、文本蕴含和子图搜索相关的许多搜索应用中,查询和每个“文档”都是一组元素,如果一个文档包含查询,那么它就是相关的。这些元素不是由原子ID表示的,而是由嵌入表示表示的,从而将集合包含扩展到了软集合包含。
动机:现有的LSH方法大多适用于对称或少数简单的非对称距离函数,不适用于铰链距离。因此,我们提出了一种新的方法来处理这个问题。
方法:我们将铰链距离转化为一种提出的支配相似性度量,然后对其应用傅里叶变换,从而将支配相似性表达为频率域内函数内积的期望。接下来,我们用重要采样估计来近似期望。最后,我们使用传统的LSH,但在频率域中进行。
效果:我们的实验表明,所提出的非对称支配相似性对于目标应用至关重要,我们的LSH(我们称之为FourierHashNet)相比于几个基线提供了更好的查询时间与检索质量权衡。傅里叶变换和可训练的哈希码都对性能增益做出了贡献。
Learning Probabilistic Symmetrization for Architecture Agnostic Equivariance
Jinwoo Kim Dat Tien Nguyen Ayhan Suleymanzade Hyeokjun An Seunghoon Hong
研究问题:本文旨在解决等变架构在学习具有群对称性的函数时的限制。
动机:目前的等变架构需要使用特定的骨干网络,并且通过一个小的等变网络来参数化潜在的对称分布,而新的框架则使用任意的骨干网络并通过一个小的等变网络来实现对给定群的等变性。
方法:该框架采用一个任意的骨干网络(如多层感知机或变压器),并通过一个小的等变网络来参数化潜在的对称分布,从而实现对给定群的等变性。分布与骨干网络一起进行端到端训练,以最大化性能并减少对称化的样本复杂度。
效果:实验结果表明,该方法不仅能够保证对给定群的等变性,还具有期望中的通用近似能力。在广泛的对称性群组上进行实证测试,包括置换和欧几里得群及其组合,并与定制的等变架构竞争,显示出潜力,可以使用非等变的通用骨干网络来学习不同群体的等变函数。进一步证明,当从非对称模态(如视觉)预训练时,可以在对称模态(如图形)中实现增强的学习效果。
Provable Training for Graph Contrastive Learning
Yue Yu Xiao Wang Mengmei Zhang Nian Liu Chuan Shi
研究问题:尽管图对比学习(GCL)已成为一种流行的无标签增强图节点嵌入学习方法,但其在处理复杂图结构时存在一些基本问题,如是否所有节点都能遵循最大化正节点对相似性、最小化负节点对相似性的原则进行训练?
动机:考虑到图的复杂性,有些节点可能在所有图增强中都不能得到良好的训练,甚至违反了这一原则。因此,需要找出这些节点并进一步指导GCL的训练。
方法:我们首先提出“节点紧凑度”这一指标,作为衡量节点如何遵循GCL原则与增强范围关系的下界。然后,通过边界传播从理论上推导出节点紧凑度的形式,并将其整合到二元交叉熵中作为正则化项。为此,我们提出了用于GCL的可证明训练(POT),该训练方法对GCL进行正则化,以更好地编码遵循GCL原则的节点嵌入。
效果:通过对各种基准的大量实验,POT显著提高了现有的GCL方法的性能,成为一种有效的插件。
Learning Layer-wise Equivariances Automatically using Gradients
Tycho F.A. van der Ouderaa Alexander Immer Mark van der Wilk
研究问题:如何让神经网络学习灵活的对称性约束?
动机:目前的神经网络模型中的对称性是固定的,不能适应数据。
方法:通过优化边际似然估计来学习层间的等变结构,以实现深度神经网络的层间对称发现。
效果:在图像分类任务上,该方法能自动学习层间的等变结构,并取得与硬编码对称性相当或更好的性能。
Provably Bounding Neural Network Preimages
Suhas Kotha Christopher Brix J Zico Kolter Krishnamurthy Dj Dvijotham Huan Zhang
研究问题:本文旨在解决神经网络验证中的逆问题,即如何找到导致特定输出的输入集。
动机:大多数神经网络验证工作都集中在对给定输入集对应的输出集进行边界限制(例如,名义输入的有界扰动)。然而,许多神经网络验证用例需要解决逆问题,或对导致某些输出的输入集进行过度近似。
方法:我们提出了INVPROP算法,用于验证线性约束输出集的预像属性,该算法可以与分支定界相结合以提高精度。与其他方法不同,我们的高效算法是GPU加速的,不需要线性规划求解器。
效果:我们在多个基准测试中证明了我们的方法,包括在VNN-COMP 2023中使用了一个具有167k个神经元的大模型。结果显示,在某些设置下,我们找到的过度近似比之前的工作更紧2500倍,同时快2.5倍。通过加强输出约束的鲁棒性验证,我们始终能验证更多的属性,超过了之前的最先进的方法。
State Sequences Prediction via Fourier Transform for Representation Learning
Mingxuan Ye Yufei Kuang Jie Wang Rui Yang Wengang Zhou Houqiang Li Feng Wu
研究问题:深度强化学习在解决复杂控制任务上有效,但样本效率仍是一个关键挑战。
动机:现有的研究探索了利用表示学习进行数据高效的强化学习,但许多方法并未充分利用状态序列中的结构性信息,这可能改善长期决策的质量,但在时间域中难以察觉。
方法:提出一种通过傅里叶变换预测状态序列(SPF)的新方法,该方法利用状态序列的频率域提取时序数据中的底层模式以高效地学习表现力表示。
效果:实验证明,所提出的方法在样本效率和性能方面优于几种最先进的算法。
From Tempered to Benign Overfitting in ReLU Neural Networks
Guy Kornowski Gilad Yehudai Ohad Shamir
研究问题:本研究旨在探讨过参数化神经网络在处理噪声数据时的泛化能力,以及输入维度、样本大小、架构和训练算法对过拟合类型的影响。
动机:尽管过参数化神经网络在训练时会完全适应噪声数据,但其仍具有良好的泛化能力,这一现象激发了“良性过拟合”的研究。最近,有研究者提出并观察到,神经网络的行为更适宜被描述为“温和的过拟合”,即性能非最优但也不为零,且随着噪声水平的增加而降低。然而,对于非线性神经网络的这种观点,目前还缺乏理论上的证明。
方法:本研究通过研究具有两层ReLU神经网络的简单分类设置,证明了在不同的假设下,当输入维度为一维时,过拟合类型从温和变为良性;而在高维情况下,过拟合类型为良性。
效果:我们的研究结果揭示了输入维度、样本大小、架构和训练算法与产生的过拟合类型之间的复杂关系。同时,我们也验证了在中间维度上的结果。
Demystifying Oversmoothing in Attention-Based Graph Neural Networks
Xinyi Wu Amir Ajorlou Zihui Wu Ali Jadbabaie
研究问题:本文旨在解决图神经网络中过度平滑的问题,即随着网络深度的增加,节点表示变得同质化。
动机:尽管先前的研究已经证明图卷积网络(GCNs)会指数级地失去表达能力,但关于图注意力机制是否能缓解过度平滑的问题仍存在争议。
方法:本文通过将基于注意力的图神经网络视为非线性时变动力系统,并引入非均匀矩阵乘积和联合谱半径理论的工具和技术,进行了严格的数学分析。
效果:与普遍看法相反,本文发现图注意力机制不能防止过度平滑,并且会指数级地失去表达能力。这一框架将现有的关于对称GCNs过度平滑的结果扩展到了更广泛的一类GNN模型,包括随机游走GCNs、图注意力网络(GATs)和(图)转换器。
What Planning Problems Can A Relational Neural Network Solve?
Jiayuan Mao Tomás Lozano-Pérez Joshua B. Tenenbaum Leslie Pack Kaelbling
研究问题:本论文旨在探讨在何种情况下可以学习目标条件策略,以及这种策略的效率如何。
动机:尽管目标条件策略通常被理解为前馈电路,即从当前状态和目标规范映射到下一步行动的神经网络形式,但对其学习和效率的理解仍不充分。
方法:通过将关系神经网络(如图神经网络和变压器)与序列化目标回归搜索(S-GRS)进行比较,对表示规划问题的策略的关系神经网络进行了电路复杂度分析。
效果:论文展示了规划问题在电路宽度和深度随对象数量和规划时间的增长方面的三种一般类别,并提供了构造性证明。此外,还说明了这种分析对于设计用于策略学习的神经网络的效用。
Break It Down: Evidence for Structural Compositionality in Neural Networks
Michael A. Lepori Thomas Serre Ellie Pavlick
研究问题:现代神经网络在视觉和语言任务中实现了令人印象深刻的性能,但其实现的功能仍不清楚。
动机:神经网络可能通过模块化子网络实现子任务的解决方案,或者只是学习将新输入匹配到已学习的模板,完全省略任务分解。
方法:利用模型剪枝技术在各种架构、任务和预训练方案中对视觉和语言进行调查。
效果:结果显示,模型通常通过模块化子网络实现子任务的解决方案,这些子网络可以被剔除,同时保持其他子网络的功能。这表明神经网络可能能够学习组合性,无需专门的符号机制。
Distance-Restricted Folklore Weisfeiler-Leman GNNs with Provable Cycle Counting Power
Junru Zhou Jiarui Feng Xiyuan Wang Muhan Zhang
研究问题:如何提高图神经网络(GNNs)在各种任务上的成功率,特别是在计数特定图子结构,如环路方面的能力。
动机:许多已提出的具有可证明的环路计数能力的GNN模型都是基于子图GNNs,这种方法需要大量的预处理,并且时间和内存成本高。
方法:提出了一种新的GNNs类别——$d$-Distance-Restricted FWL(2) GNNs,或 $d$-DRFWL(2) GNNs,该方法简化了FWL(2)算法,限制了消息传递的范围为距离不超过d的节点对,从而在保持表达能力的同时降低了复杂度。
效果:实验结果表明,$d$-DRFWL(2) GNNs即使在d=2时也具有强大的环路计数能力,可以计数所有3、4、5、6-环路。在合成数据集和分子数据集上的实验验证了这一理论,$d=2$的$DRFWL(2)$ GNN是目前为止最有效(无论在理论上还是实证上)的能够计数至6-环路的GNN模型。
A Spectral Theory of Neural Prediction and Alignment
Abdulkadir Canatar Jenelle Feather Albert Wakhloo SueYeon Chung
研究问题:如何对表现相似的深度神经网络进行区分,并理解模型如何捕捉神经活动。
动机:尽管许多先进的深度神经网络在预测神经反应上表现相似,但如何区分这些表现相同的模型,以及理解其捕捉神经活动的方式仍不清楚。
方法:通过应用最近的理论框架,将回归中的泛化误差与模型和目标的谱性质联系起来,并将此理论应用于模型激活和神经反应之间的回归。通过分解神经网络预测误差,引入几何测量来解读神经网络预测误差。
效果:通过对大量预测视觉皮层活动的深度神经网络进行测试,发现有多种类型的几何结构会导致低的神经网络预测误差。这项工作表明,仔细分解表示度量可以提供模型如何捕捉神经活动的可解释性,并为改进的神经活动模型指明了方向。
Expressive Sign Equivariant Networks for Spectral Geometric Learning
Derek Lim Joshua Robinson Stefanie Jegelka Haggai Maron
研究问题:本文旨在探讨符号不变性在机器学习模型中的应用及其限制,并开发新型的符号等变神经网络架构。
动机:尽管现有的工作已经展示了尊重特征向量结构与对称性的机器学习模型的效用,但作者发现对于一些任务如构建正交等变模型和学习图的链接预测节点位置编码,符号不变性在理论上存在限制。
方法:通过开发新的符号等变多项式分析表征,作者开发出了基于这种表征的新型符号等变神经网络架构。
效果:控制合成实验表明,这些网络能够实现理论预测的符号等变模型的优势。
Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained Features Model
Peter Súkeník Marco Mondelli Christoph H Lampert
研究问题:本文旨在解决深度神经网络训练过程中的多层神经网络坍塌(DNC)现象,特别是在非线性层中的表现。
动机:尽管神经网络坍塌在最后一层的理论已经相对成熟,但在多层神经网络中的坍塌现象却鲜有研究。现有的工作或者只关注线性层,或者仅对最后两层进行研究,但都需要额外的假设。
方法:本文将已建立的单层神经网络坍塌分析框架——无约束特征模型——推广到多层非线性层。通过梯度下降优化深层无约束特征模型,证明了其全局最优解具有典型的神经网络坍塌特性。
效果:实验结果表明,(i) 通过梯度下降优化深层无约束特征模型,得到的解决方案与理论相符;(ii) 训练后的网络恢复了适合发生神经网络坍塌的无约束特征,从而支持了这种建模原理的有效性。
Deep Fractional Fourier Transform
Hu Yu Jie Huang Lingzhi Li Man Zhou Feng Zhao
研究问题:现有的深度学习计算机视觉方法通常在空间和频率域中操作,这两个是图像处理的两个正交的独立视角。
动机:本文介绍了一种新的空间-频率分析工具,分数傅里叶变换(FRFT),以提供全面统一的空间-频率视角。
方法:FRFT是一种统一的连续空间-频率变换,同时反映图像的空间和频率表示,使其成为处理非平稳图像信号的最佳选择。我们探索了FRFT用于图像处理的性质,并提出了2D FRFT的快速实现,促进了其广泛应用。基于这些探索,我们引入了一种简单而有效的操作符,多阶分数傅里叶卷积(MFRFC),它在空间-频率平面上从更多的角度处理图像表现出显著的优点。
效果:我们在各种计算机视觉任务上对MFRFC进行了实验评估,包括目标检测、图像分类、引导超分辨率、去噪、去雾、去雨滴和低光增强。我们提出的MFRFC在所有任务上都大大超过了基线方法。
The Exact Sample Complexity Gain from Invariances for Kernel Regression
Behrooz Tahmasebi Stefanie Jegelka
研究问题:本研究从理论角度探讨了将不变性编码到模型中以提高样本复杂度的现象。
动机:为了提高模型的泛化能力和效率,需要研究如何通过编码不变性来降低样本复杂度。
方法:本文针对紧致流形上的核岭回归问题,研究了目标函数在流形上受群作用不变的情况下的最小最大最优速率。
效果:实验结果表明,对于有限群,不变性带来的增益相当于样本数量乘以群大小;对于正维群,除了与商空间体积成比例的因子外,不变性还降低了流形的维数。这种新的几何观点可能对学习不变性具有独立的意义。
Understanding Multi-phase Optimization Dynamics and Rich Nonlinear Behaviors of ReLU Networks
Mingze Wang Chao Ma
研究问题:训练过程中的ReLU神经网络经常表现出复杂的非线性现象,这对理论分析构成了重大挑战。
动机:大多数先前的理论工作主要集中在局部分析(如训练结束时)或近似线性模型(如Neural Tangent Kernel)。
方法:本研究对在可分数据上使用梯度流训练的两层ReLU网络的整个训练过程进行了完整的理论表征。
效果:尽管我们研究的模型和数据相对简单,但我们揭示了从随机初始化到最终收敛的整个优化过程中的四个不同阶段,显示出一种简化到复杂的学习趋势。此外,我们还精确地识别并理论捕捉到了特定的非线性行为,如初始凝聚、鞍点到平稳态动力学、平稳态突破、激活模式的变化以及随着复杂度增加的学习等。
Equivariant Neural Operator Learning with Graphon Convolution
Chaoran Cheng Jian Peng
研究问题:本文旨在提出一种结合系数学习方案和残差操作层用于在3D欧几里得空间中连续函数之间学习映射的通用架构。
动机:目前的模型无法有效地捕获几何信息并保持等变性,因此需要一种新的方法来解决这个问题。
方法:通过结合连续图论结构和输入数据的离散图结构,提出了一种称为InfGCN的新模型,该模型可以有效地捕获几何信息并保持等变性。
效果:通过在大规模电子密度数据集上的大量实验,发现该模型显著优于当前最先进的架构。
Critical Initialization of Wide and Deep Neural Networks using Partial Jacobians: General Theory and Applications
Darshil Doshi Tianyu He Andrey Gromov
研究问题:如何对深度神经网络进行理论处理,特别是在网络参数趋向无穷大时。
动机:尽管深度神经网络在理论上的处理存在困难,但当每层参数趋向无穷大时,网络函数可以视为高斯过程(GP),从而可以进行定量预测描述。
方法:提出了一种新的实用方法来诊断深度神经网络的临界性,即通过计算部分雅可比矩阵,并利用其范数的递归关系进行分析。同时,还开发了一种简单且经济的数值测试方法,用于选择广泛类别的深度神经网络的最佳初始化。
效果:通过这些工具,我们定量地证明了适当的LayerNorm预激活和残差连接堆叠会产生一个对于任何初始值都处于临界状态的架构。最后,我们将这些方法应用于ResNet和MLP-Mixer架构的分析,展示了无处不在的临界状态。
Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks
Eshaan Nichani Alex Damian Jason D. Lee
研究问题:深度学习理论中的一个核心问题是理解神经网络如何学习分层特征。
动机:深度网络提取显著特征的能力对其出色的泛化能力和现代深度学习的预训练和微调范式至关重要。然而,从理论上讲,这种特征学习过程仍然知之甚少,现有的分析主要限于两层网络。
方法:本研究展示了三层神经网络比两层网络具有更强的特征学习能力。我们分析了通过逐层梯度下降训练的三层网络学习的特征,并提出了一项通用定理,该定理上界了当目标具有特定层次结构时实现低测试误差所需的样本复杂度和宽度。
效果:我们在特定的统计学习设置中实例化我们的框架——单指数模型和二次特征函数——并表明,在后一种情况下,三层网络在所有现有的两层网络保证中获得了样本复杂度的改进。关键地,这种样本复杂度的改进依赖于三层网络有效学习非线性特征的能力。然后,我们通过构造一个函数建立了具体的优化基础深度分离,该函数可以通过三层网络上的梯度下降高效地学习,但无法由两层网络有效地学习。我们的研究在理解三层神经网络相对于两层网络在特征学习领域的可证明优势方面取得了进展。
Balancing memorization and generalization in RNNs for high performance brain-machine Interfaces
Joseph T Costello Hisham Temmar Luis H Cubillos Matthew J Mender Dylan M Wallace Matthew S Willsey Parag G Patil Cynthia Chestek
研究问题:脑机接口(BMI)能够恢复瘫痪人士的肌肉功能,但目前受到实时解码算法准确性的限制。
动机:现代训练技术下的循环神经网络(RNN)已显示出从神经信号准确预测运动的能力,但在闭环设置中尚未与其他解码算法进行严格评估。
方法:使用非人灵长类动物的皮质内信号,在实时、连续的运动解码中比较了RNN和其他神经网络架构。
效果:在一个和两个手指在线任务中,LSTMs(一种RNN)的表现优于卷积和基于变压器的神经网络,其吞吐量平均比卷积网络高出18%。在简化的任务中,允许RNN解码器记忆运动模式并匹配健全的控制。随着不同运动数量的增加,性能逐渐下降,但并未低于完全连续的解码器性能。最后,在一个两个手指的任务中,其中一个自由度的信号较差,我们使用训练得像运动分类器和连续解码器一样的RNN恢复了功能性控制。我们的研究结果表明,RNN可以通过学习和生成准确的运动模式实现功能性实时脑机接口控制。
Structure-free Graph Condensation: From Large-scale Graphs to Condensed Graph-free Data
Xin Zheng Miao Zhang Chunyang Chen Quoc Viet Hung Nguyen Xingquan Zhu Shirui Pan
研究问题:现有的图缩并方法在效果和泛化能力上存在关键问题。
动机:图缩并可以减小大规模图的大小,为各种图学习任务带来直接好处。
方法:本文提出了一种新的无结构图缩并范式SFGC,将大规模图蒸馏成小尺度的无结构图节点集,即图自由数据。
效果:通过训练轨迹元匹配和图神经网络特征评分度量,SFGC在不同的缩并比例下表现出优越性。
Quasi-Monte Carlo Graph Random Features
Isaac Reid Adrian Weller Krzysztof Marcin Choromanski
研究问题:如何提高图随机特征(GRFs)的准确性。
动机:最近引入的图随机特征(GRFs)类需要改进其准确性。
方法:我们提出了一种新的机制,通过强制对立终止来引发算法随机游走长度之间的负相关性,从而采样更多样化的随机游走。
效果:我们的实验结果表明,这种方法在各种任务上都有准确性的提高,包括一种新的实际应用:时间高效的图扩散过程近似。
Deep Reinforcement Learning with Plasticity Injection
Evgenii Nikishin Junhyuk Oh Georg Ostrovski Clare Lyle Razvan Pascanu Will Dabney Andre Barreto
研究问题:深度强化学习中神经网络的可塑性逐渐丧失,但这种现象的分析与缓解受到可塑性、探索和性能之间复杂关系的影响。
动机:提出一种最小干预方法——可塑性注入,以增加网络的可塑性,而不改变训练参数的数量或预测的偏差。
方法:通过在训练过程中注入新的信息来增加网络的可塑性,以此作为诊断工具,确定哪些环境会导致性能停滞,并提高强化学习的训练效率。
效果:实验结果显示,可塑性注入在Atari游戏上取得了比替代方法更强的性能,同时具有计算效率。
HyTrel: Hypergraph-enhanced Tabular Data Representation Learning
Pei Chen Soumajyoti Sarkar Leonard Lausen Balasubramaniam Srinivasan Sheng Zha Ruihong Huang George Karypis
研究问题:现有的预训练语言模型在处理大规模表格数据时,没有考虑到行/列置换不变性、层次结构等特性。
动机:为了解决这些问题,我们提出了HyTrel,一种能够通过使用超图来捕捉表格数据的置换不变性和三种其他结构特性的表格语言模型。
方法:我们将表格中的单元格作为节点,将每行、每列以及整个表格中共同出现的单元格用于形成三种不同类型的超边,从而获取表格数据的结构特性。
效果:实验结果表明,HyTrel在一些下游任务上的表现优于其他竞争基线,即使在最小的预训练下也能保持一致的优势,证明了将与表格数据相关的归纳偏置引入表示法的优点。
Adaptive whitening with fast gain modulation and slow synaptic plasticity
Lyndon Duong Eero P Simoncelli Dmitri Chklovskii David Lipshutz
研究问题:本研究旨在解决现有模型在解释神经元如何快速适应感官统计变化方面的局限性。
动机:现有的模型主要依赖突触可塑性或增益调制来解释适应性白化,但各自都有明显限制。
方法:本研究提出了一个多时标规范性机制模型,通过结合突触可塑性和增益调制,互补地实现其响应的适应性白化。增益在快时标上调整以适应当前的统计环境,而突触则在慢时标上调整以匹配输入统计结构的不变属性。
效果:通过对合成和自然数据集的测试,发现突触能在长时标上学习到最优配置,使得短时标上的增益调制能实现适应性白化。
Pareto Frontiers in Deep Feature Learning: Data, Compute, Width, and Luck
Benjamin L. Edelman Surbhi Goel Sham M. Kakade eran malach Cyril Zhang
研究问题:本文旨在探讨现代深度学习中算法选择(如宽度、深度和学习率)如何调节特征学习的细微资源权衡。
动机:在存在计算统计差距的情况下,了解这些复杂性如何必然出现对于特征学习是必要的。
方法:通过考虑离线稀疏偶数学习,一个有监督的分类问题,其对梯度训练的多层感知器有一个统计查询下界。理论上和实验上证明,稀疏初始化和增加网络宽度可以显著提高样本效率。
效果:宽度在这里起到了并行搜索的作用:它放大了找到“彩票”神经元的概率,这些神经元以更高的样本效率学习稀疏特征。最后,我们证明了需要轴对齐特征学习的现实世界问题可以使用合成稀疏偶数任务作为代理。通过使用宽且稀疏初始化的MLP模型,我们在表格分类基准测试上提高了样本效率;这些网络有时能超越调整过的随机森林。
Extraction and Recovery of Spatio-Temporal Structure in Latent Dynamics Alignment with Diffusion Model
Yule Wang Zijing Wu Chengrui Li Anqi Wu
研究问题:在行为相关脑计算领域,需要对原始神经信号进行对齐,以解决它们之间的剧烈领域偏移问题。
动机:尽管神经科学研究中存在一个基本框架,即基于试验的神经群体活动依赖于低维潜在动态,但现有方法在对齐阶段忽略了内在的时空结构,导致潜在动态结构质量和整体性能较差。
方法:我们提出了一种对齐方法ERDiff,利用扩散模型的表达能力来保留潜在动态的时空结构。首先通过扩散模型提取源领域的的潜在动态结构,然后在该扩散模型的指导下,通过最大似然对齐过程在目标领域中恢复这些结构。
效果:我们在合成数据集上首先证明了该方法的有效性。然后将其应用于非人灵长类动物运动皮层的神经记录,无论是跨天还是跨受试者设置,我们的方法都能一致地表现出保留潜在动态的时空结构的能力,并在对齐拟合度和神经解码性能方面优于现有方法。
Slow and Weak Attractor Computation Embedded in Fast and Strong E-I Balanced Neural Dynamics
Xiaohan Lin Liyuan Li Boxin Shi Tiejun Huang Yuanyuan Mi Si Wu
研究问题:吸引子网络和兴奋抑制平衡网络(E-INNs)在大脑中的共存方式及其结构需求尚不清楚。
动机:吸引子网络和E-INNs是神经回路的两种典型模型,但通常被单独研究,其共存方式及其结构需求尚未明确。
方法:通过模拟和理论分析,研究发现如果神经元突触由两组构成:一组强且快用于不规则发射,另一组弱且慢用于吸引子动态,那么神经网络可以同时展现吸引子网络和E-INNs的特性。
效果:结果显示,与只使用一组突触的情况相比,这种网络具有增强的性能,能更快地收敛到吸引子状态,并能保留局部输入的E-I平衡条件。此外,该网络模型还成功应用于解决实际的跟踪问题,表现出良好的追踪快速移动物体的能力。
Temperature Balancing, Layer-wise Weight Analysis, and Neural Network Training
Yefan Zhou Tianyu Pang Keqin Liu charles h martin Michael W. Mahoney Yaoqing Yang
研究问题:如何有效地调整神经网络训练中各层的学习率?
动机:学习率在神经网络训练中起着关键作用,目前的训练策略主要是定义学习率随时间衰减的过程。
方法:本文提出了一种简单而有效的逐层学习率调整方法——TempBalance,该方法基于Heavy-Tailed Self-Regularization(HT-SR)理论,通过使用HT-SR启发的度量标准来指导模型训练过程中所有网络层的温度调度和平衡。
效果:在CIFAR10、CIFAR100、SVHN和TinyImageNet数据集上,使用不同深度和宽度的ResNets、VGGs和WideResNets进行实验,结果显示TempBalance显著优于普通SGD和精心调整的谱范数正则化,同时也优于一些先进的优化器和学习率调度器。
Attentive Transfer Entropy to Exploit Transient Emergence of Coupling Effect
Xiaolei Ru Xin-Ya Zhang Zijia Liu Jack Murdoch Moore Gang Yan
研究问题:重建耦合网络,即连接大量变量(如神经细胞)的网络,其状态演变受强自我驱动和弱耦合驱动的耗散动力学控制。
动机:耦合效应的稀疏性是核心困难,即耦合力只在时间序列中短暂出现,其余时间保持静止。
方法:借鉴注意力机制,引导分类器关注可能显现耦合效应的关键时间序列数据区域。通过训练人工神经网络最大化注意力转移熵(ATEn),自动分配注意力系数。
效果:无需任何先验动态知识,ATEn能明确识别出耦合驱动力明显大于零的区域。这一创新显著提高了对合成和真实有向耦合网络的重建性能,适用于广泛用于神经科学的神经元模型生成的数据。
Prefix-Tree Decoding for Predicting Mass Spectra from Molecules
Samuel Goldman John Bradshaw Jiayi Xin Connor W. Coley
研究问题:目前的分子质量光谱预测工具存在局限性,不是过度刚性的分子组合碎片处理,就是解码有损和离散的质量光谱向量。
动机:为了解决这些问题,本文提出了一种新的中间策略,将质量光谱视为分子式集合,通过编码输入的分子图并解码分子子式集来预测质量光谱。
方法:首先对输入的分子图进行编码,然后解码分子子式集,每个子式都预测了质量光谱中的一个峰值,其强度由第二个模型预测。主要创新点是通过使用前缀树结构,逐个原子地解码分子式集,克服了分子子式的排列组合可能性。
效果:实验结果表明,这种方法在质量光谱预测任务上表现出良好的效果。
What Makes Data Suitable for a Locally Connected Neural Network? A Necessary and Sufficient Condition Based on Quantum Entanglement.
Yotam Alexander Nimrod De La Vega Noam Razin Nadav Cohen
研究问题:如何判断一个数据分布是否适合深度学习?
动机:针对局部连接神经网络(包括卷积神经网络、循环神经网络和局部自注意力模型),我们采用量子物理的理论工具来解决这个问题。
方法:我们的主要理论成果表明,如果特定特征的正交划分下的数据分布具有低量子纠缠性,那么特定的局部连接神经网络就能对该数据分布进行准确预测。作为这一结果的实际运用,我们推导出一种预处理方法,以提高数据分布对局部连接神经网络的适应性。
效果:我们在各种数据集上广泛使用不同的模型进行实验,证明了我们的发现。我们希望利用量子纠缠性能进一步推动物理学工具在深度学习与真实世界数据关系的形式推理中的采用。
Dynamic Tensor Decomposition via Neural Diffusion-Reaction Processes
Zheng Wang Shikai Fang Shibo Li Shandian Zhe
研究问题:如何更好地利用稀疏但富含时间信息的张量数据进行多维数据分析。
动机:现有的方法往往忽视了时间信息和稀疏观测的张量条目中的结构性知识,为了克服这些限制并更好地捕捉潜在的时间结构,我们提出了动态嵌入用于动态张量分解(DEMOTE)的方法。
方法:我们开发了一个神经扩散-反应过程来估计每个张量模式实体的动态嵌入。基于观察到的张量条目,我们构建了一个多部分图来编码实体之间的相关性。然后,我们使用神经网络为每个单独的实体构建一个反应过程。
效果:通过模拟研究和实际应用,我们展示了该方法的优势。我们的代码可以在https://github.com/wzhut/Dynamic-Tensor-Decomposition-via-Neural-Diffusion-Reaction-Processes上找到。
Adversarial Training from Mean Field Perspective
Soichiro Kumano Hiroshi Kera Toshihiko Yamasaki
研究问题:尽管对抗性训练被证明对对抗性示例有效,但其训练动态并不完全清楚。
动机:本研究旨在对随机深度神经网络的对抗性训练进行首次理论分析,无需对数据分布做出任何假设。
方法:我们提出了一个新的基于平均场理论的理论框架,该框架解决了现有基于平均场的方法的限制。基于这个框架,我们推导出了各种p和q值下的基于$ell_q$范数的对抗性损失与基于$\ell_p$范数的对抗性示例之间的(经验上紧)上界。
效果:我们证明了没有捷径的网络通常无法进行对抗性训练,并且对抗性训练会降低网络容量。我们还发现,网络宽度可以缓解这些问题。此外,我们还展示了输入和输出维度对权重方差上界和时间演化的各种影响。
Epistemic Neural Networks
Ian Osband Zheng Wen Seyed Mohammad Asghari Vikranth Dwaracherla Morteza Ibrahimi Xiuyuan Lu Benjamin Van Roy
研究问题:如何利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Banana: Banach Fixed-Point Network for Pointcloud Segmentation with Inter-Part Equivariance
Congyue Deng Jiahui Lei Bokui Shen Kostas Daniilidis Leonidas Guibas
研究问题:如何有效地捕捉复杂系统中的部件间转换,如关节对象或多物体场景?
动机:在处理复杂的系统时,有效的捕捉部件间的转换是一个挑战,因为它与整体结构和局部转换紧密相关。
方法:我们提出了一种名为Banana的新型网络结构,通过构建实现部件间等变的等变分割。我们的关键洞察是迭代解决一个固定点问题,其中点-部件分配标签和每个部分的SE(3)等变同时共同演化。
效果:实验证明,即使在面临点云几何和拓扑的重大变化时,我们的方法也能在部件间转换下实现强大的泛化能力。
Exploring Loss Functions for Time-based Training Strategy in Spiking Neural Networks
Yaoyu Zhu Wei Fang Xiaodong Xie Tiejun Huang Zhaofei Yu
研究问题:如何更好地利用时间信息,以异步的方式进行训练,提高脉冲神经网络(SNNs)的性能。
动机:SNNs是一种受大脑启发的、能源效率高的模型,其基于事件的计算模式具有潜力。在SNNs中,用于传递信息的时空脉冲模式包括率编码和时间编码,其中时间编码对于生物逼真的学习规则(如尖峰时间依赖可塑性)至关重要。
方法:提出了一种基于时间的培训策略,以更好地利用SNNs中的时间信息进行异步学习。同时,将基于率的损耗函数映射到基于时间的对应项,并解释为何它们也适用于基于时间的培训方案。此外,还提出了增强计数损耗来取代常用的均方计数损耗。
效果:实验表明,该方法在大多数数据集上都优于先前的时间基础训练方法。这项工作为使用基于时间的方法训练SNNs提供了见解,并为率编码和时间编码之间的关联提供了新的视角。
Dynamics of Finite Width Kernel and Prediction Fluctuations in Mean Field Neural Networks
Blake Bordelon Cengiz Pehlevan
研究问题:本文旨在分析有限宽度效应在宽但有限的特征学习神经网络中的动态变化。
动机:从深度神经网络无限宽度内核和预测动态的动力学平均场理论描述出发,提供网络权重随机初始化下DMFT序参数的$\mathcal{O}(1/\sqrt{\text{width}})$波动特性。
方法:通过对比宽度和特征学习强度的非微扰性,对网络训练的懒惰极限、两层网络、深层网络以及卷积神经网络进行研究,并展示如何动态减少最终切线内核和最终网络预测的方差。
效果:实验结果表明,对于CIFAR-10训练的CNN,由于有限宽度,网络动态的偏倚和方差都会出现显著的修正。
AMAG: Additive, Multiplicative and Adaptive Graph Neural Network For Forecasting Neuron Activity
Jingyuan Li Leo Scholl Trung Le Pavithra Rajeswaran Amy L Orsborn Eli Shlizerman
研究问题:本文旨在通过预测任务,利用先验信息(包括成对的神经单元交互)来改善潜在变量模型(LVMs)在捕捉神经活动动态性上的表现。
动机:现有的LVMs主要基于深度学习方法,通过重构输入的神经活动来建立潜在的表示,但这种方法无法捕获到时间上的因果关系。因此,本文希望通过预测任务来改进LVMs的性能。
方法:本文提出了一种基于图神经网络(GNN)的模型——Additive, Multiplicative, and Adaptive Graph Neural Network (AMAG),该模型利用了类似于神经元系统中的交互的加法和乘法消息传递操作,并自适应地学习神经单元之间的交互,以预测其未来的活动。
效果:实验结果表明,AMAG模型在恢复真实的空间交互以及预测神经群体的未来动态方面优于非GNN的方法,并在多模态神经记录(来自四只恒河猴的穿透电极或表面级微电极图)上表现出优越性能。
Representational Strengths and Limitations of Transformers
Clayton Sanford Daniel Hsu Matus Telgarsky
研究问题:本文旨在探讨注意力层与其他架构相比的优势和劣势,并建立其表示能力的正面和负面结果。
动机:尽管注意力层在现代深度学习中被广泛使用,但对其优势和劣势的数学描述却很少。
方法:通过关注宽度、深度和嵌入维度等内在复杂性参数,对注意力层的表示能力进行正反两方面的研究。
效果:实验结果表明,注意力层在稀疏平均任务上具有优势,而在三元检测任务上则表现不佳。同时,论文强调了通信复杂度在分析变压器及相关模型中的价值,以及稀疏平均作为典型注意力任务的作用。
Phase diagram of early training dynamics in deep neural networks: effect of the learning rate, depth, and width
Dayal Singh Kalra Maissam Barkeshli
研究问题:本文系统分析了深度神经网络(DNNs)使用随机梯度下降(SGD)训练的优化动态,并研究了学习率、网络深度和宽度的影响。
动机:通过分析损失函数海森矩阵的最大特征值,该值是损失景观锐度的度量,作者发现优化动态可以表现出四种不同的模式。
方法:使用大规模文本语料库和知识图谱训练增强的语言表示模型ERNIE,将KG中的知识与文本语料库进行联合训练,使ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Explaining V1 Properties with a Biologically Constrained Deep Learning Architecture
Galen Pogoncheff Jacob Granley Michael Beyeler
研究问题:如何通过将神经科学衍生的架构组件系统地整合到卷积神经网络(CNNs)中,以更全面地解释初级视觉皮层(V1)的活动。
动机:尽管当前的顶级V1模型已经从对抗性例子和大量增强的数据训练中浮现,但这些模型仍然无法解释由生物电路引起的V1中观察到的关键神经属性。
方法:我们将神经科学衍生的架构组件系统地整合到CNNs中,以确定一组能够更全面解释V1活动的机制和架构。
效果:通过增强具有模拟中心-周围对抗、局部感受野、调谐归一化和皮质放大等神经科学衍生架构组件的任务驱动CNNs,我们发现了一组具有潜在表示的模型,这些模型在解释V1神经活动和调谐特性方面达到了最先进的水平。此外,对这些组件学习到的参数以及最能激活评估网络神经元的刺激的分析,为它们在解释V1神经属性方面的作用提供了支持。
A Unified, Scalable Framework for Neural Population Decoding
Mehdi Azabou Vinam Arora Venkataramana Ganesh Ximeng Mao Santosh B Nachimuthu Michael Jacob Mendelson Blake Aaron Richards Matthew G Perich Guillaume Lajoie Eva L Dyer
研究问题:如何将大规模的神经记录集成到一个统一的模型中,以解析神经网络活动。
动机:尽管深度学习方法在解析神经网络活动方面具有潜力,但整合大量神经记录到单一模型中是具有挑战性的,因为每个记录都包含来自不同动物的不同神经元的活动。
方法:本文介绍了一种训练框架和架构,用于模拟跨多种大规模神经记录的神经活动群体动态。该方法首先对数据集中的各个尖峰进行标记化,以构建有效的神经事件表示,该表示捕获了神经活动的精细时间结构。然后,我们使用交叉注意力和一个PerceiverIO主干进一步构建神经群体活动的潜标记化。利用这种架构和训练框架,我们构建了一个在来自七种非人灵长类动物的大型数据集上训练的大型多会话模型,跨越了158个不同的记录会话,涉及超过27,373个神经单元和超过100小时的记录。
效果:在多个不同的任务中,我们证明我们的预训练模型可以快速适应新的、未见过的会话,无需指定神经元对应关系,实现了少量标注下的即插即用性能。这项工作为构建分析神经数据的深度学习工具提供了一种强大的新方法,并为神经网络解码模型的训练规模指明了一条清晰的道路。
Polyhedron Attention Module: Learning Adaptive-order Interactions
Tan Zhu Fei Dou Xinyu Wang Jin Lu Jinbo Bi
研究问题:如何有效地学习多元预测模型中的特征交互作用。
动机:现有的深度学习方法在处理特征交互时存在局限性,如ReLU激活函数只能创建分段线性预测模型,而其他非线性激活函数则导致高阶特征交互的模型。
方法:提出一种多面体注意力模块(PAM),将输入空间分割成多面体,每个多面体定义不同的部分,并在每个部分上形成多面体边界的超平面以形成交互项,从而实现自适应每个部分的交互顺序。
效果:理论分析表明,PAM具有比ReLU激活网络更强的表达能力。大量实验结果表明,PAM在点击率预测等大规模数据集上具有优越的分类性能,并能在医疗问题上学习有意义的交互效应。
Equivariant Adaptation of Large Pretrained Models
Arnab Kumar Mondal Siba Smarak Panigrahi Sékou-Oumar Kaba Sai Rajeswar Siamak Ravanbakhsh
研究问题:如何使预训练的大型神经网络模型具有等变性质,以提高预测的准确性和鲁棒性。
动机:目前的预训练网络需要对每个组件进行重新设计以实现所选的等变性质,这既困难又昂贵。
方法:提出一种替代方案,使用一个简化的规范化网络将输入转换为标准形式,然后将其输入到无约束的预测网络中。
效果:这种方法可以有效地使大型预训练网络具有等变性,同时保持其性能。这种等变适应大型预训练模型可以提高它们对已知对称性的特定领域的应用的鲁棒性。
Normalization Layers Are All That Sharpness-Aware Minimization Needs
Maximilian Mueller Tiffany Joyce Vlaar David Rolnick Matthias Hein
研究问题:本研究旨在探讨在SAM中仅对仿射归一化参数进行扰动是否可以提高泛化性能。
动机:尽管SAM已被证明可以通过减少极小值的锐度来提高各种设置中的泛化性能,但通常需要对所有参数进行扰动。本研究试图找出是否只需对部分参数进行扰动就可以达到类似的效果。
方法:本研究通过实验发现,在SAM的对抗步骤中,只对仿射归一化参数进行扰动(这些参数通常只占总数的0.1%),就可以超越对所有参数进行扰动的效果。这一发现适用于不同的SAM变体和ResNet(批量归一化)以及Vision Transformer(层归一化)架构。
效果:虽然本研究的发现再次证实了SAM在提高泛化性能方面的有效性,但也引发了对其是否完全由降低锐度引起的疑问。
The Simplicity Bias in Multi-Task RNNs: Shared Attractors, Reuse of Dynamics, and Geometric Representation
Elia Turner Omri Barak
研究问题:本文旨在研究在循环神经网络(RNNs)中,单个互联神经群体如何执行各自具有不同动态需求的任务。
动机:目前对于RNNs中单个任务的动态需求和神经动力学之间的关系已有研究,但多个任务之间共同动态力的影响尚未得到充分探索。
方法:本文首先构建了一个系统框架来研究RNNs中的多个任务,通过最小化输入和输出与隐藏表示之间的相关性干扰,揭示RNNs倾向于共享吸引子和复用动态的特性,即“简单性偏好”。
效果:研究发现RNNs在训练过程中会按顺序形成吸引子,优先复用现有动态并尽可能选择简单的解决方案。这种按顺序出现和优先复用的现象体现了简单性偏好。通过具体例子,作者证明新的吸引子主要由于任务需求或架构限制而出现,说明了简单性偏好与外部因素之间的平衡。此外,作者还探讨了单个吸引子内联合表示的几何结构,并发现相似输入间距的点在达到共享吸引子时会经历相似的变换,这再次强调了简单性偏好。这些发现为推断未知任务的性质以及网络专业化所需条件提供了有力依据。
Affinity-Aware Graph Networks
Ameya Velingker Ali Kemal Sinop Ira Ktena Petar Veličković Sreenivas Gollapudi
研究问题:如何提高图神经网络(GNNs)在关系数据上的表达能力?
动机:由于图神经网络的消息传递步骤有限,影响了其对底层图结构的表达能力。因此,人们希望通过引入结构方面的信息来提高其表达能力。
方法:本文探索了将亲和力测量作为图神经网络特征的使用,特别是从随机游走中产生的有效阻力、命中和通勤时间等测量。我们提出了基于这些特征的消息传递网络,并在各种节点和图属性预测任务上评估了它们的表现。
效果:我们的架构具有低计算复杂度,而我们的特征与底层图的排列无关。我们计算的测量允许网络利用图的连接性属性,从而在各种任务上超越相关基准,通常只需要较少的消息传递步骤。在我们所拥有的最大的公开图形回归数据集之一OGB-LSC-PCQM4Mv1上,我们获得了当时最好的单模型验证MAE。
Adaptive recurrent vision performs zero-shot computation scaling to unseen difficulty levels
Vijay Veerabadran Srinivas Ravishankar Yuan Tang Ritik Raina Virginia R. de Sa
研究问题:人类解决算法或推理问题时,解决方案的时间通常会随着问题的困难程度而增加。
动机:已有研究表明,适应性循环神经网络在各种语言处理任务中表现出了这种特性。然而,对于视觉模型是否也能通过这种自适应计算扩展到其训练分布的难度级别之外,目前的研究还很少。
方法:本研究使用循环神经网络来探究这种自适应处理的关键功能:根据输入需求动态调整计算资源,从而实现对未见过的训练难度级别的零样本泛化。我们结合了卷积循环神经网络(ConvRNNs)和基于Graves(2016)的学习停止机制。
效果:我们发现,1) AdRNNs能学会动态地提前或延后停止处理以解决较易或较难的问题;2) 这些RNN能在测试时动态增加循环迭代次数,从而对训练中未出现的难题进行零样本泛化。这项研究为支持“循环处理使得网络能够根据输入需求动态分配计算资源,从而实现对视觉推理问题更难难度级别的泛化”的假设提供了模型证据。
Time Series Kernels based on Nonlinear Vector AutoRegressive Delay Embeddings
Giovanni De Felice John Y Goulermas Vladimir Gusev
研究问题:如何设计一种有效的时间序列分析核方法,特别是在小数据集的情况下。
动机:当前的时间序列分析方法在处理小数据集时面临挑战,而水库计算(RC)作为一种强大的工具,其性能高度依赖于难以解释和优化的超参数设置。
方法:提出了一种新的基于水库动态与非线性向量自回归(NVAR)过程等价性的时间序列核方法。这种核是非循环的,依赖于一组有意义的小超参数,并建议了一种有效的启发式方法。
效果:在各种真实世界的分类任务上表现出色,无论是在准确性还是在速度上都表现出色,进一步推动了水库计算表示学习模型的理解,并将NVAR框架的典型应用扩展到了真实世界时间序列数据的核设计和表示上。
Optimality of Message-Passing Architectures for Sparse Graphs
Aseem Baranwal Kimon Fountoulakis Aukosh Jagannath
研究问题:本文研究了在稀疏设置下,特征装饰图上的节点分类问题。
动机:当图中节点的预期度数为O(1)时,即节点数量很大而特征数据的维度固定时,我们引入了一种称为渐近局部贝叶斯最优性的节点分类任务的最优性概念。
方法:我们计算了根据这一标准在具有任意分布的节点特征和边连通性的一般统计数据模型中进行最优分类器的计算,该最优分类器可以使用消息传递图神经网络架构实现。
效果:我们发现,最优的消息传递架构在低图信号和高图信号的环境下分别插值于标准的多层感知机和典型的卷积运算。此外,我们还证明了相应的非渐近结果。
Transformers learn through gradual rank increase
Emmanuel Abbe Samy Bengio Enric Boix-Adserà Etai Littwin Joshua M. Susskind
研究问题:探索Transformers中的增量学习动态,即训练后权重与初始权重之间的差异在等级上逐渐增大。
动机:为了理解Transformers模型的学习过程和优化效果,需要揭示其内部的学习动态。
方法:通过理论分析和实验验证,发现在对角权重矩阵和小初始化的简化假设下,训练后权重与初始权重的差异会逐渐增大。
效果:实验结果支持了这一理论,并表明即使没有这些简化假设,这种现象在实际中也可能发生。
Reversible and irreversible bracket-based dynamics for deep graph neural networks
Anthony Gruber Kookjin Lee Nathaniel Trask
研究问题:如何训练深度图神经网络(GNNs)而不过度平滑,以及物理学在这其中的作用是什么。
动机:尽管成功的示例包括可逆和不可逆的现象,但目前的机制存在根本的对立,并且由于与数学理论的经验偏差而进一步复杂化。
方法:提出了一系列基于结构保持的括号式动态系统的新颖GNN架构,这些架构被证明能够随着深度的增加保持能量或产生正的耗散。
效果:理论上的原则性框架使得模型具有内在的可解释性,可以更好地阐明网络性能中的可逆性和不可逆性的角色。
Stable Vectorization of Multiparameter Persistent Homology using Signed Barcodes as Measures
David Loiseaux Luis Scoccola Mathieu Carrière Magnus Bakke Botnan Steve Oudot
研究问题:本文旨在解决多参数持久同调(MPH)描述符在数据科学中稳定向量化的问题。
动机:虽然单参数持久同调可以很好地对数据进行拓扑描述,但多参数版本由于稳定性结果的稀缺性,其应用受到了限制。
方法:通过将带符号条码解读为带符号拉冬测度,实现了从单参数到多参数的向量化策略的自然扩展。
效果:实验证明,这种方法生成的特征向量易于定义和计算,且具有稳定性。与当前最先进的基于拓扑的方法相比,该方法在各种类型的数据上都表现出了显著的性能提升。
A Theory of Link Prediction via Relational Weisfeiler-Leman on Knowledge Graphs
Xingyue Huang Miguel Romero Orth Ismail Ilkan Ceylan Pablo Barcelo
研究问题:本文旨在对图神经网络在知识图谱上的应用进行系统性理解,特别是在链接预测这一主要任务上。
动机:尽管图神经网络在简单图结构上的能力及其限制已经得到充分理解,但在知识图谱的环境下,我们的理解仍然不完整。
方法:通过对一系列看似无关的模型进行统一视角的分析,解锁了一系列其他模型。并通过对应的关系Weisfeiler-Leman算法来描述各种模型的表达能力。
效果:理论上的发现解释了广泛采用的一些实用设计选择的优点,这些优点在实践中得到了验证。
Attention as Implicit Structural Inference
Ryan Singh Christopher Buckley
研究问题:本文旨在探讨注意力机制在认知系统中的作用,并从结构推理的角度理解Transformers中的attention。
动机:尽管Transformers已成为机器学习中的主流架构,但其attention的核心创新基于数据库管理系统中键和查询的概念。因此,本文试图从结构推理的角度来理解attention。
方法:通过整合先前的理论描述,如高斯混合模型、对齐机制和霍普菲尔德网络,本文将attention视为在图形模型中可能的邻接结构上的推理,从而揭示了这种机制的通用性。
效果:本文提出了两种attention的新视角,并在解释性的玩具问题上进行了实验。结果表明,这两种新的视角可以改进现有的attention机制,并且能够连接机器学习中的attention机制和神经科学中的贝叶斯attention概念。
Provable Advantage of Curriculum Learning on Parity Targets with Mixed Inputs
Emmanuel Abbe Elisabetta Cornacchia Aryo Lotfi
研究问题:如何通过改变训练样本的分布和学习步骤的顺序,提高神经网络的学习效率。
动机:现有的研究表明,先呈现简单例子再逐渐增加复杂性(课程学习)可以提高学习效率。同时,改变采样分布也有助于神经网络学习等式。
方法:本研究在常见的采样分布上,使用标准的(有界的)学习率,对训练步骤的数量进行了分离结果的研究。如果数据分布是稀疏和密集输入的混合体,那么先使用稀疏例子进行训练的2层ReLU神经网络,可以通过课程噪声梯度下降(或随机梯度下降)算法学习到足够大的等式,而任何宽度或深度可能更大的全连接神经网络,如果没有额外的步骤,就无法在学习无序样本的过程中进行学习。
效果:实验结果表明,除了特定理论结果的区间外,还存在着定性的分离效果,支持了改变训练样本分布和学习步骤顺序可以提高神经网络学习效率的观点。
Should Under-parameterized Student Networks Copy or Average Teacher Weights?
Berfin Simsek Amire Bendjeddou Wulfram Gerstner Johanni Brea
研究问题:如何用一个神经元数量少于教师网络的“学生”网络来近似一个具有一个隐藏层和k个神经元的“教师”网络。
动机:由于学生网络的神经元数量少于教师网络,因此不清楚每个学生神经元是应该复制一个教师神经元还是平均一组教师神经元。
方法:对于具有erf激活函数和标准高斯输入分布的浅层神经网络,证明了当教师的输入向量正交且输出权重为酉时,“复制-平均”配置是临界点。
效果:实验发现,对于erf激活函数,梯度流要么收敛到最优的复制-平均临界点,要么收敛到一个每个学生神经元大约复制一个不同的教师神经元的点。对于ReLU激活函数也得到了类似的结果,表明欠参数化网络的最优解具有通用结构。
A generative model of the hippocampal formation trained with theta driven local learning rules
Tom George Kim Stachenfeld Caswell Barry Claudia Clopath Tomoki Fukai
研究问题:本研究旨在通过模拟海马体结构,探索动物智能中的生成模型。
动机:理解支持这些过程的生物机制有助于揭示生物和人工智能之间的关系。
方法:我们介绍了一种相当于Helmholtz机的海马体结构模型,并将其应用于时间序列输入。我们的模型的一个新颖之处在于快速的theta波段振荡(5-10 Hz)控制了整个网络的信息流方向,类似于高频醒睡算法的训练方式。
效果:我们的模型能够准确推断高维感官环境的隐藏状态并生成逼真的感官预测。此外,它可以通过发展与先前理论建议相匹配的环形吸引子连接结构来学习路径整合,并能在环境之间灵活地转移这种结构。
Ignorance is Bliss: Robust Control via Information Gating
Manan Tomar Riashat Islam Matthew E. Taylor Sergey Levine Philip Bachman
研究问题:如何通过信息门控学习实现更好的泛化,同时减少噪声和虚假相关性的影响?
动机:提出信息门控作为一种学习简洁表示的方法,通过最小化任务所需信息来提高泛化能力。
方法:使用可微分的信噪比参数化进行信息门控,可以应用于网络中的任意值,例如在输入层擦除像素或隐藏某些中间层的激活。
效果:实验结果表明,通过学习识别和使用最小必要信息,可以提高下游任务的泛化能力。基于信息门控的策略对无关视觉特征具有更强的鲁棒性,有助于改善强化学习模型的预训练和微调。
MeGraph: Capturing Long-Range Interactions by Alternating Local and Hierarchical Aggregation on Multi-Scaled Graph Hierarchy
Honghua Dong Jiawei Xu Yu Yang Rui Zhao Shiwen Wu Chun Yuan Xiu Li Chris J. Maddison Lei Han
研究问题:本文旨在解决图神经网络在捕捉图中长程交互信息方面的困难。
动机:现有的图神经网络主要通过局部邻居之间的信息交换来捕捉信息,但往往难以捕获图中的长程交互(LRIs)。
方法:提出了一种名为MeGraph的模型,该模型将多尺度图的本地和层次结构整合到一个单一的大图中。MeGraph模型由多个交替进行本地和层次信息聚合的层组成。每一层首先通过内部图的边缘在不同尺度的图上进行本地感知的消息传递,然后沿着由外部图的边缘形成的双向路径在整个层次结构中融合信息。
效果:实验结果表明,MeGraph模型在捕捉长程交互信息的能力上表现出色,并在常见的真实世界数据集上也显示出优越或相当的性能。
Domain Agnostic Fourier Neural Operators
Ning Liu Siavash Jafarzadeh Yue Yu
研究问题:目前的傅立叶神经算子(FNOs)在处理不规则几何和拓扑变化的问题时,依赖于快速傅立叶变换(FFT),这限制了其在非矩形域上的应用。
动机:为了解决这一问题,我们提出了一种名为“领域无关的傅立叶神经算子”(DAFNO)的新型神经算子架构,用于学习具有不规则几何和演化领域的替代模型。
方法:我们通过在FNOs的积分层架构中引入平滑特性函数,并利用FFT实现快速计算,使得几何信息被显式编码在架构中。
效果:实验结果表明,DAFNO在材料建模和翼型模拟的两个基准数据集上,与基线神经算子模型相比,取得了最先进的精度。此外,我们还展示了DAFNO在处理具有拓扑变化的复杂领域的能力,仅用一个训练裂缝模拟样本,DAFNO就能推广到未见过的压力情况和与训练场景大相径庭的裂缝模式。
Exact Verification of ReLU Neural Control Barrier Functions
Hongchao Zhang Junlin Wu Yevgeniy Vorobeychik Andrew Clark
研究问题:如何验证学习到的控制屏障函数(CBFs)的安全性。
动机:在非线性系统的安全控制中,控制屏障函数是一种流行的方法。然而,验证学习到的CBFs的安全性仍然是一个挑战。
方法:本文提出了一种新的精确条件和算法,用于验证具有ReLU激活功能的前馈神经网络控制屏障函数(NCBFs)的安全性。我们通过利用非光滑边界集合不变的Nagumo定理的推广来解决这个问题。
效果:我们的实验结果表明,我们的方法比最先进的基于SMT的方法更有效。
Dis-inhibitory neuronal circuits can control the sign of synaptic plasticity
Julian Rossbroich Friedemann Zenke
研究问题:神经回路如何实现信用分配仍是系统神经科学中未解决的核心问题。
动机:各种研究提出了通过多层网络反向传播错误信号的可行解决方案,但这些纯功能性模型假设了不同的神经元隔室来表示决定突触可塑性符号的局部错误信号,这与主要依赖于突触后活动的表观可塑性模型不一致。
方法:我们展示了如何在自适应控制理论框架内推导出一个合理的微电路模型和赫伯学习规则来解决这种不一致性。假设错误被编码在自上而下的抑制性突触输入中,我们发现当循环抑制明确影响赫伯可塑性时,电路级别上的错误调制学习自然出现。
效果:同样的学习规则可以解释实验观察到的无抑制情况下的可塑性,并在几个非线性可分基准上与误差反向传播(BP)表现相当。我们的发现弥合了功能和实验观察到的可塑性规则之间的差距,并对兴奋性可塑性的抑制性调制做出了具体预测。
Calibrate and Boost Logical Expressiveness of GNN Over Multi-Relational and Temporal Graphs
Yeyuan Chen Dingmin Wang
研究问题:本文旨在分析图神经网络(GNN)作为多关系图上布尔节点分类器的逻辑表达能力。
动机:尽管图神经网络在图表示学习中具有强大的框架,但目前还没有对GNN作为布尔节点分类器的逻辑表达能力进行形式化分析。
方法:本文研究了$\mathcal{FOC}_2$,这是一种有两个变量和计数量词的第一阶逻辑片段。我们通过扩展局部消息传递的GNN来构建R^2-GNN模型,并证明了在某些限制性但合理的场景下,R^2-GNN模型等价于$\mathcal{FOC}_2$分类器。
效果:为了解决R^2-GNN在表达能力方面的局限性,我们提出了一种简单的图转换技术,类似于预处理步骤,可以在线性时间内执行。这种转换使得R^2-GNN能够有效地捕获任何$\mathcal{FOC}_2$分类器。此外,我们将表达性分析和图转换扩展到了时间图,探索了几种时间GNN架构,并为它们提供了一种表达性层次结构。实验结果证明,使用图形转换的R^2-GNN在节点分类任务上优于各种支持多关系或时间图的知名GNN架构。
Machine learning detects terminal singularities
Tom Coates Alexander M. Kasprzyk Sara Veneziale
研究问题:Q-Fano变量分类问题。
动机:Q-Fano变量是复杂的几何形状的基本组成部分,其分类问题对于理解更复杂的形状至关重要,但目前尚未解决。
方法:利用机器学习技术,特别是神经网络,对八维正曲率代数变量进行分类预测。
效果:开发的神经网络分类器可以以95%的准确率预测这类代数变量是否为Q-Fano类型,为高维Q-Fano变量分类提供了初步的概览。此外,还提出了一个新的全局组合标准,证明了一类具有两个Picard等级的正曲率代数变量具有终端奇异性。这些发现表明,机器学习可能是发展数学猜想和加速理论发现的重要工具。
Bottleneck Structure in Learned Features: Low-Dimension vs Regularity Tradeoff
Arthur Jacot
研究问题:深度神经网络的深度和正则化如何影响其学习输入表示的方式。
动机:以前的工作显示,深度神经网络倾向于学习输入的低维表示,这可以解释为最小化所学函数的秩的概念,被推测为瓶颈秩。
方法:计算有限深度的修正结果,揭示一个衡量正则化的量,该量约束雅可比矩阵的伪行列式,并在复合和添加下具有次可加性。
效果:证明了在无限深度下,几乎所有隐藏表示都是近似瓶颈结构的维度,并且几乎所有权重矩阵都有接近1的瓶颈秩奇异值,而其他奇异值为O(L^{-1/2})。有趣的是,需要使用大的学习率来保证几乎所有层的表示的阶O(L) NTK收敛。
Training biologically plausible recurrent neural networks on cognitive tasks with long-term dependencies
Wayne WM Soo Vishwa Goudar Xiao-Jing Wang
研究问题:训练循环神经网络(RNNs)以生成和评估认知机制的神经假设,但RNNs难以学习长期依赖性的任务。
动机:解决RNNs在训练过程中难以学习长期依赖性的问题,提高RNNs在模拟认知过程任务中的效率和性能。
方法:通过引入专门的跨时间跳跃连接来支持任务相关动态的出现,并恢复原始架构以增强生物合理性。
效果:该方法使RNNs能够成功学习需要长期依赖性或记忆过去事件的认知任务,减少了训练步骤和计算时间,扩大了生物合理RNN模型可学习实验任务的范围。
Efficient Learning of Linear Graph Neural Networks via Node Subsampling
Seiyun Shin Ilan Shomorony Han Zhao
研究问题:如何避免全量计算图的邻接矩阵和数据矩阵的乘积,以实现在(准)线性时间内进行图神经网络操作。
动机:图神经网络的操作通常需要对大规模的图进行输入,这在训练和测试阶段会带来巨大的计算/存储成本。
方法:通过执行节点抽样、基于抽样图估计邻接矩阵和数据矩阵乘积的杠杆分数,以及在邻接矩阵和数据矩阵乘积上执行杠杆分数采样,来开发一种高效的训练算法。
效果:实验结果表明,该算法在观察邻接矩阵的$O(nd\epsilon^{-2}\log n)$个条目时,可以在$O(nd^2 \epsilon^{-2}\log n)$的时间内学习回归模型,且学习到的权重与使用整个邻接矩阵学习的模型在$ell_2$范数下的偏差不超过$\epsilon$。
An information-theoretic quantification of the content of communication between brain regions
Marco Celotto Jan Bím Alejandro Tlaie Vito De Feo Alessandro Toso Stefan M Lemke Daniel Chicharro Hamed Nili Malte Bieler Ileana Livia Hanganu-Opatz Tobias H. Donner Andrea Brovelli Stefano Panzeri
研究问题:如何量化大脑区域之间的信息交流量、内容和方向,以理解大脑功能。
动机:传统的基于维纳-格兰杰因果关系原理的脑活动分析方法只能量化同时记录的大脑区域之间神经活动传播的总体信息,无法揭示关于特定特征(如感官刺激)的信息流动。
方法:开发了一种新的信息理论测量方法,称为特征特定的信息转移(FIT),用于量化两个区域之间关于特定特征的信息流量。FIT将维纳-格兰杰因果关系原理与信息内容特异性相结合。
效果:通过模拟神经活动,证明了FIT能够识别出在区域之间传输的关于特定特征的信息。通过对三种不同的记录方法(磁电图和脑电图以及尖峰活性)获得的三个神经网络数据集的分析,展示了FIT能够揭示传统分析方法无法辨别的大脑区域之间的信息流的内容和方向。FIT可以通过揭示以前未解决的特征特定的信息流来提高我们对大脑区域如何通信的理解。
Expressivity-Preserving GNN Simulation
Fabian Jogl Maximilian Thiessen Thomas Gärtner
研究问题:本文旨在通过图变换实现标准消息传递,以模拟最先进的图神经网络(GNNs),同时保持表达能力。
动机:目前的图神经网络实现存在许多实施问题和代码优化困难,因此需要一种直接的方式将非标准的GNNs的常见操作转化为图变换,以实现强或弱的模拟。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Empowering Convolutional Neural Nets with MetaSin Activation
Farnood Salehi Tunc Ozan Aydin André Gaillard Guglielmo Camporese Yuxuan Wang
研究问题:尽管ReLU网络在图像预测领域一直是默认选择,但其对学习低频信息的偏好以及难以重现高频视觉细节的问题。
动机:Sin网络在学习视觉数据的隐式表示方面表现出了有希望的结果,但在实际应用中的训练却相当困难。
方法:提出用具有可训练参数的新的集成函数替换基线网络的现有激活函数,即MetaSin激活。
效果:所提出的MetaSin激活可以可靠地训练,无需复杂的初始化方案,并且与替代方案相比,其测试损失始终较低。在蒙特卡洛去噪和图像重采样等领域中,通过基于知识蒸馏的训练过程,我们设置了新的最先进的性能。
EICIL: Joint Excitatory Inhibitory Cycle Iteration Learning for Deep Spiking Neural Networks
Zihang Shao Xuanye Fang Yaxin Li Chaoran Feng Jiangrong Shen Qi Xu
研究问题:本文旨在解决传统深度尖峰神经网络训练方法的局限性,如依赖预训练和微调、间接编码和重建以及近似梯度等策略。
动机:传统的深度尖峰神经网络训练方法缺乏完整的训练模型,需要梯度近似,因此提出一种新的学习方式,即联合兴奋抑制循环迭代学习(EICIL)。
方法:通过将两种行为模式有机地嵌入到一个框架中,提出的EICIL显著提高了尖峰神经元模型的生物模拟和适应性,并扩展了尖峰神经元的表示空间。
效果:基于EICIL和传统学习方法的大量实验表明,EICIL在CIFAR10和CIFAR100等各种数据集上优于传统方法,揭示了训练过程中整合两种行为的关键作用。
NAR-Former V2: Rethinking Transformer for Universal Neural Network Representation Learning
Yun Yi Haokui Zhang Rong Xiao Nannan Wang Xiaoyu Wang
研究问题:如何有效地对神经网络本身进行建模和学习表示,以预测网络的目标属性,而无需实际的训练和部署过程。
动机:随着深度学习模型在实际应用中的广泛应用,对神经网络的表示学习和模型化的需求日益增长。有效的表示可以预测网络的目标属性,从而简化网络的设计和部署过程。
方法:本文重新审视了Transformer,并将其与图神经网络(GNN)进行了比较,分析了两者不同的架构特性。然后提出了一种改进的基于Transformer的通用神经网络表示学习模型NAR-Former V2,它可以从细胞结构网络和整个网络中学习有效的表示。具体来说,我们首先将网络视为图,并设计一个简单的标记器将网络编码为序列。然后,我们将GNN的归纳表示学习能力融入到Transformer中,使Transformer在遇到未见过的结构时能更好地泛化。此外,我们还引入了一系列简单而有效的修改,以提高Transformer从图形结构中学习表示的能力。
效果:在对整个网络进行编码并预测延迟方面,我们的方法在NNLQP数据集上显著超过了基于GNN的方法NNLP。此外,在对细胞结构的NASBench101和NASBench201数据集进行准确性预测方面,我们的方法达到了与其他最先进的方法相当的性能。
Graph Contrastive Learning with Stable and Scalable Spectral Encoding
Deyu Bo Yuan Fang Yang Liu Chuan Shi
研究问题:本文旨在解决传统图对比学习中空间视图生成的问题,以及现有基于光谱的研究问题:本文旨在解决传统图对比学习中空间视图生成的问题,以及现有基于光谱的图视图忽略位置编码信息或在处理光谱特征不稳定性时复杂度高的挑战。
动机:尽管传统的图对比学习方法主要在空间域生成视图,但最近发现光谱域也对补充空间视图起着关键作用。然而,现有的基于光谱的图视图方法要么忽略了编码有价值位置信息的本征向量,要么在处理光谱特征不稳定性时面临高复杂度的问题。
方法:首先设计了一个名为EigenMLP的具有信息性、稳定性和可扩展性的光谱编码器,用于从光谱特征中学习有效的表示。然后,提出了一个空间-光谱对比框架(Sp$^{2}$GCL),以捕捉由图神经网络编码的空间信息与由EigenMLP学习的光谱信息之间的一致性,从而有效地融合这两种图视图。
效果:实验结果显示,该方法不仅学习了有效的图表示,而且在节点级和图级数据集上比其他基于光谱的方法快2到10倍。
Circuit as Set of Points
Jialv Zou Xinggang Wang JiaHao Guo Wenyu Liu Qian Zhang Chang Huang
研究问题:随着电路设计规模的快速增长,如何快速评估布局成为物理设计过程中最耗时的部分。
动机:现有的方法要么通过手工制作的方法将电路设计转换为图像,然后使用卷积神经网络(CNN)提取特征,这受限于手工制作方法的质量,无法实现端到端训练;要么将电路设计视为图形结构,并使用图神经网络(GNN)提取特征,这需要耗时的预处理。
方法:我们提出一种新的电路设计视角,将电路元件视为点云,并使用基于变压器的点云感知方法从电路中提取特征。这种方法可以直接从原始数据中提取特征,无需任何预处理,允许端到端训练,并产生高性能的结果。
效果:实验结果表明,我们的方法在CircuitNet和ISPD2015数据集上的拥塞预测任务以及CircuitNet数据集上的设计规则检查(DRC)违规预测任务中实现了最先进的性能。我们的方法在相对成熟的点云感知方法和快速发展的EDA算法之间建立了桥梁,使我们能够利用更多的集体智能来解决这个问题。
SAME: Uncovering GNN Black Box with Structure-aware Shapley-based Multipiece Explanations
Ziyuan Ye Rihan Huang Qilin Wu Quanying Liu
研究问题:本文旨在解决图神经网络(GNNs)解释性差的问题,提供一种经济有效的方法来揭示模型的内部工作机制。
动机:尽管许多GNN解释变体在各种基准测试中取得了最先进的解释结果,但它们很少对其内在属性和解释能力进行理论分析。
方法:本文提出了一种名为SAME的结构感知Shapley基础多片段解释(SAME)方法,该方法通过扩展的蒙特卡洛树搜索来探索多粒度的结构感知连接子结构,并通过优化不同单一子结构的组合,使解释结果具有图性质的信息性。
效果:在真实世界和合成基准测试上的大量实验表明,SAME在BBBP、MUTAG、Graph-SST2、Graph-SST5、BA-2Motifs和BA-Shapes等数据集上,将先前最先进的逼真性能提高了12.9%、7.01%、42.3%、38.9%、11.3%和18.2%。
Meta-learning families of plasticity rules in recurrent spiking networks using simulation-based inference
Basile Confavreux Poornima Ramesh Pedro J. Goncalves Jakob H. Macke Tim P. Vogels
研究问题:寻找并理解生物网络中多种并行的可塑性规则。
动机:目前的对可塑性规则的研究主要依赖人类的直觉,对于在生物网络中的多个并行的可塑性规则的探索成果有限。
方法:开发了一种基于模拟的推理(SBI)方法,通过逐步细化的约束条件来过滤可塑性规则,这些约束条件可以实时修改。
效果:该方法能够在脉冲网络中推断出一系列复杂且并行的可塑性规则。首先考虑了灵活参数化的成对(赫伯)规则,发现推断出的规则集包含了扩展和精炼-以及拒绝-平均场理论预测的解决方案。然后,通过将可塑性规则建模为结合了若干与可塑性相关的因素(如权重、电压、三元组和共依赖性)的多层感知器,扩大了可塑性规则的搜索空间。从数百万种可能的规则中,识别出了满足诸如合理的活动和权重动态等生物学约束条件的数千种独特的规则组合。这些得出的规则可以作为进一步研究特定网络计算的起点,并对经典的可塑性实验方法提出了改进和预测。这种在大型循环脉冲网络中探索复杂可塑性规则的灵活方法,是目前为止最先进且强大的工具,能够实现对大脑功能背后的可塑性机制的深入理解和准确预测。
Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models
Yubin Shi Yixuan Chen Mingzhi Dong Xiaochen Yang Dongsheng Li Yujiang Wang Robert P. Dick Qin Lv Yingying Zhao Fan Yang Tun Lu Ning Gu Li Shang
研究问题:本文旨在研究深度学习中过参数化模型的学习动态,以获得更有效和富有成效的训练策略。
动机:尽管过参数化模型在深度学习社区中广泛存在,但其对适当训练的高计算成本需求很大。
方法:通过缩小到网络模块(如自注意力模型的头部)来观察每个模块的可训练性与学习模式之间的隐含关联,并引入了一种新的概念——模块化神经切线核(mNTK)。
效果:实验表明,MAT可以显著减少模型训练的计算成本,并通过其部分更新策略进一步提高性能。
Neural Sculpting: Uncovering hierarchically modular task structure in neural networks through pruning and network analysis
Shreyas Malakarjun Patil Loizos Michael Constantine Dovrolis
研究问题:如何通过深度神经网络学习任务,揭示其底层的子功能层次结构?
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
The Contextual Lasso: Sparse Linear Models via Deep Neural Networks
Ryan Thompson Amir Dezfouli Robert Kohn
研究问题:如何提高稀疏线性模型的灵活性,使其在解释性机器学习领域与深度神经网络等黑盒模型竞争。
动机:随着预测模型在许多领域的决策中广泛应用,解释性机器学习的重要性日益凸显。然而,稀疏线性模型作为输入特征的函数,其灵活性远不如深度神经网络等黑盒模型。
方法:提出了一种名为上下文lasso的新统计估计器,该估计器将稀疏线性模型拟合到解释性特征上,使得稀疏模式和系数随上下文特征而变化。通过深层神经网络非参数化地学习这种函数。为了获得稀疏的系数,我们使用一种新的lasso正则化器训练网络,该正则化器的形式为将网络输出映射到$\ell_1$约束线性模型空间的投影层。
效果:大量实验表明,学习到的模型保持高度透明,可以比常规lasso更稀疏,而不牺牲标准深度神经网络的预测能力。
Optimal Block-wise Asymmetric Graph Construction for Graph-based Semi-supervised Learning
Zixing Song Yifei Zhang Irwin King
研究问题:如何有效地利用大规模文本语料库和知识图谱训练语言表示模型,以捕捉语义模式并提高各种NLP任务的性能。
动机:目前的预训练语言模型缺乏对结构化知识的利用,而知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:本文提出了一种增强的语言表示模型ERNIE,该模型同时利用大规模文本语料库和知识图谱进行训练,能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Correlative Information Maximization: A Biologically Plausible Approach to Supervised Deep Neural Networks without Weight Symmetry
Bariscan Bozkurt Cengiz Pehlevan Alper Tunga Erdogan
研究问题:大脑是否采用了类似反向传播的监督学习机制?
动机:反向传播算法在训练大规模人工神经网络上取得了显著成功,但其生物合理性受到强烈质疑。
方法:提出层激活之间的关联信息最大化作为描述生物神经网络信号传播的替代规范方法。
效果:该方法解决了传统人工神经网络和反向传播算法的生物合理性问题,同时解决了前向和后向信号传播路径之间的权重对称问题,为模拟更真实的生物神经网络提供了一种解决方案。
AI for Interpretable Chemistry: Predicting Radical Mechanistic Pathways via Contrastive Learning
Mohammadamin Tavakoli Pierre Baldi Ann Marie Carlton Yinting Chiu Alexander Shmakov David Van Vranken
研究问题:目前的深度学习反应预测模型主要依赖美国专利局的反应,导致预测研究问题:目前的深度学习反应预测模型主要依赖美国专利局的反应,导致预测结果缺乏解释性且在其他化学领域(如自由基和大气化学)的泛化能力有限。
动机:为了解决这些问题,我们提出了一种新的反应预测系统RMechRP,它结合了对比学习和机制途径,这是化学反应最具解释性的表示。
方法:我们使用公共的自由基反应数据库RMechDB开发和训练多个深度学习模型,以建立预测自由基反应的第一个基准。
效果:实验结果表明,RMechRP在提供准确和可解释的自由基反应预测方面非常有效,并具有在大气化学等各种应用中的潜力。
A Unified Framework for U-Net Design and Analysis
Christopher Williams Fabian Falck George Deligiannidis Christopher C. Holmes Arnaud Doucet Saifuddin Syed
研究问题:本研究旨在对U-Net神经网络架构进行设计和分析,以理解其在图像和偏微分方程等连续信号处理任务中的应用。
动机:尽管U-Net在许多任务中都是首选的神经网络架构,但其设计和架构的研究还不够充分。
方法:本研究提供了一个设计和分析通用U-Net架构的框架,包括理论结果,这些结果描述了U-Net中编码器和解码器的作用、其高分辨率缩放限制以及通过预条件与ResNets的共轭性。此外,还提出了Multi-ResNets,这是一种简化的、基于小波的编码器,无需学习参数的U-Net。
效果:实验结果表明,Multi-ResNets在图像分割、偏微分方程代理建模和扩散模型生成建模等方面,通常能取得优于传统U-Net的竞争性和优越性能。此外,本研究的U-Net框架为研究U-Net的理论性质和设计用于多种问题的自然、可扩展的神经网络架构铺平了道路。
TempME: Towards the Explainability of Temporal Graph Neural Networks via Motif Discovery
Jialin Chen Zhitao Ying
研究问题:当前的时间图神经网络(TGNN)在预测未来交互时,其底层机制通常由图中的一组重复子结构,即时间模式所控制,但哪些时间模式被模型视为触发特定预测的重要指标仍不确定。
动机:解决当前TGNN的解释性和可信度的关键挑战,提高模型的可理解性。
方法:提出一种名为Temporal Motifs Explainer(TempME)的新方法,该方法基于信息瓶颈原理,提取与交互最相关的模式,同时最小化包含的信息量,以保持解释的稀疏性和简洁性。
效果:实验证明,TempME生成的解释中事件的空间和时间相关性高于现有方法,提供了更易于理解的见解。在六个真实世界数据集上进行的广泛实验验证了TempME的优越性,解释准确性提高了8.21%,并使当前TGNN的平均精度提高了22.96%。
Predicting Global Label Relationship Matrix for Graph Neural Networks under Heterophily
Langzhang Liang Xiangjing Hu Zenglin Xu Zixing Song Irwin King
研究问题:现有的图神经网络(GNNs)在处理异质性图时可能会遇到困难,即不同标签的节点更有可能被连接。
动机:为了解决这个问题,我们提出了一种适用于同质和异质图的通用GNN,即低秩图神经网络(LRGNN)。
方法:我们通过解决一个鲁棒的低秩矩阵近似问题来预测标签关系矩阵,因为已有研究表明,在某些条件下,低秩近似可以实现完美恢复。
效果:实验结果表明,该解决方案与标签关系矩阵非常相似,为图建模提供了两个优点:块对角结构和变化的内部类和类间条目分布。
Efficiently incorporating quintuple interactions into geometric deep learning force fields
Zun Wang Guoqing Liu Yichi Zhou Tong Wang Bin Shao
研究问题:如何有效地将五体相互作用纳入机器学习力场(MLFFs)中,以提高模型的表达能力和准确性。
动机:尽管现有的模型已经能够明确地包含至四体相互作用,但五体相互作用在各个领域都有其重要性,将其高效地融入MLFFs仍是一个挑战。
方法:本文提出了一种名为“五元网络”(QuinNet)的端到端图神经网络,该网络能以“从头算”的准确性高效地表达多达五体相互作用的多体量子交互。通过分析多种多体量子交互的拓扑结构,设计了该模型的架构,以有效且明确地表示这些交互。
效果:我们在MD17及其修订版等小分子公开数据集上评估QuinNet,结果显示,它在这些基准测试上与其它最先进的模型相兼容。此外,QuinNet在更大、更复杂的分子系统(如MD22和Chignolin)上超越了许多领先的模型,而没有增加计算复杂性。我们还使用QuinNet作为分子动力学(MD)模拟的力场,以证明其准确性和稳定性,并进行消融研究以阐明五体相互作用的重要性。
Trajectory Alignment: Understanding the Edge of Stability Phenomenon via Bifurcation Theory
Minhak Song Chulhee Yun
研究问题:本文旨在通过实证研究来观察损失函数Hessian的最大特征值,即锐度,在梯度下降过程中的演变,并研究稳定性边缘(EoS)现象。
动机:训练初期,锐度会逐渐增大(称为渐进锐化),最终在阈值约2/步长处饱和。当出现稳定性边缘现象时,不同的梯度下降轨迹(经过适当的重参数化)会在一个与初始值无关的特定分岔图上对齐。
方法:通过对两个具有单一数据点的两层全连接线性网络和单神经元非线性网络进行严格的证明,证明了这种轨迹对齐现象。
效果:这项轨迹对齐分析证实了渐进锐化和稳定性边缘现象的存在,包括并扩展了文献中的最新发现。
Learning and processing the ordinal information of temporal sequences in recurrent neural circuits
Xiaolong Zou Zhikun Chu Qinghai Guo Jie Cheng Bo Ho Si Wu Yuanyuan Mi
研究问题:本研究旨在探索递归神经网络如何学习表示时间序列的抽象顺序结构,以及这种从内容中分离出来的位置结构表示如何促进时间序列的处理。
动机:实验数据显示,大脑对顺序信息和时间序列内容的表示是解耦的,但这种解耦背后的神经机制还不清楚。
方法:通过适当的学习协议,我们让一个递归神经网络学习一组树状吸引子状态来编码给定时间序列的相应树状顺序。然后,这个抽象的时间顺序模板可以与不同的内容结合,实现灵活和强大的时间序列处理。
效果:通过转移学习任务,我们发现重用时间顺序模板有助于获取具有相同或相似顺序结构的新时间序列。在关键词检测任务中,我们发现如果顺序信息是区分不同序列的关键,那么位置结构的吸引子表示可以提高时间序列识别的鲁棒性。
Train Once and Explain Everywhere: Pre-training Interpretable Graph Neural Networks
Jun Yin Chaozhuo Li Hao Yan Jianxun Lian Senzhang Wang
研究问题:如何训练一个能对不同图进行通用解释的图神经网络(GNN)模型。
动机:现有的可解释GNN大多针对特定数据集,难以泛化到不同的图上。受最近预训练技术成功的启发,首次提出预训练可解释图神经网络(π-GNN),通过在具有真实解释的合成图上进行预训练来提炼GNN的通用可解释性。
方法:引入结构模式学习模块提取多样的通用结构模式并整合它们以全面表示不同类型的图;提出超图细化模块,通过结合通用结构模式和局部边交互来确定解释子图;最后,将任务特定的预测器与预训练的π-GNN模型级联,并在下游任务中进行微调。
效果:大量实验表明,π-GNN显著超越了领先的可解释GNN基线,解释性能提高了9.98%,分类准确率提高了16.06%。同时,在图分类任务上预训练的π-GNN也在节点分类任务上实现了顶级的解释性能,进一步验证了其在各种下游任务中的出色泛化性能。
Sheaf Hypergraph Networks
Iulia Duta Giulia Cassarà Fabrizio Silvestri Pietro Lio
研究问题:如何更好地表示和处理超图中的复杂交互关系。
动机:现有的方法通常使用超图来表示这些交互关系,但效果有限。
方法:提出一种细胞束超图的概念,为常规超图添加额外的结构,同时保持局部的高阶连通性。并在此基础上,开发出两种独特的束超图拉普拉斯矩阵形式:线性和非线性。
效果:通过实验证明,这种新的表示方法在多个基准数据集上的超图节点分类任务上取得了优秀的性能。
Simplifying and Empowering Transformers for Large-Graph Representations
Qitian Wu Wentao Zhao Chenxiao Yang Hengrui Zhang Fan Nie Haitian Jiang Yatao Bian Junchi Yan
研究问题:如何有效地在大规模图上学习表示?
动机:现有的方法在处理大规模图时,由于数据点的相互依赖性,往往需要复杂的模型和大量的计算。
方法:本文提出了一种简化的图变压器(SGFormer)方法,该方法仅使用一层注意力就可以在任意节点之间有效传播信息,无需位置编码、特征/图预处理或增强损失。
效果:实验结果表明,SGFormer可以成功扩展到网络规模的ogbn-papers100M图,并在中等规模图上的推理速度比最先进的变压器快141倍。
The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit
Lorenzo Noci Chuning Li Mufan Bill Li Bobby He Thomas Hofmann Chris J. Maddison Daniel M. Roy
研究问题:本文旨在研究变换器的注意力机制在无限深度和宽度比例下的协方差矩阵,以了解网络的可训练性。
动机:受到变换器成功的启发,我们希望通过修改Softmax-based注意力模型并加入跳跃连接来研究其协方差矩阵。
方法:我们对变换器的注意力机制进行了修改,将Softmax输出中心化并对Softmax logits进行宽度依赖的温度参数缩放。通过对应的随机微分方程(SDE)来检查网络的稳定性,展示了如何利用残差连接优雅地控制漂移和扩散的规模。
效果:实验结果表明,SDE为相应的有限大小模型提供了一种令人惊讶的良好描述。我们将这种修改后的架构称为“成形变换器”。
Tailoring Self-Attention for Graph via Rooted Subtrees
Siyuan Huang Yunchong Song Jiayue Zhou Zhouhan Lin
研究问题:现有的图学习中的注意力机制存在局限性,如局部注意力难以捕捉长距离信息,全局注意力无法反映层次化的邻域结构。
动机:为了解决这些问题,本文提出了一种新的多跳图注意力机制——子树注意力(STA)。
方法:STA将完全注意力结构和根子树无缝连接,通过理论证明在极端情况下,STA近似于全局注意力。通过允许直接计算多跳邻居之间的注意力权重,STA缓解了现有图注意力机制的内在问题。
效果:通过使用核 softmax 设计了一种有效的 STA 形式,实现了线性时间复杂度。由此产生的基于 STA 的图神经网络 STAGNN 在十个节点分类数据集上表现出色,优于现有的图转换器和主流 GNNs。
Boosting Verification of Deep Reinforcement Learning via Piece-Wise Linear Decision Neural Networks
Jiaxu Tian Dapeng Zhi Si Liu Peixin Wang Cheng Chen Min Zhang
研究问题:形式验证深度强化学习系统的准确性和可扩展性问题。
动机:训练过程中的过度估计以及将难以解释的决策模型(即深度神经网络)转化为易于验证的模型是主要障碍。
方法:提出一种逆转换-然后训练的方法,首先将DNN编码为一组高效且紧密可验证的线性控制策略,然后通过强化学习优化它们。同时提出一种新型神经网络模型,称为分段线性决策神经网络(PLDNN),与大多数现有的DRL训练算法兼容,性能与传统的DNN相当。
效果:与基于DNN的DRL系统相比,基于PLDNN的系统可以更高效、更紧密地验证,验证速度提高了438倍,过度估计也大大减少。特别地,即使是一个复杂的12维DRL系统,也可以在更深的计算步骤下进行有效验证。
What functions can Graph Neural Networks compute on random graphs? The role of Positional Encoding
Nicolas Keriven Samuel Vaiter
研究问题:本文旨在深化对大型图上图神经网络(GNNs)的理论理解,特别是它们的表达能力。
动机:现有的分析将此概念与图同构问题相关联,这主要适用于小型图,或者研究的图分类或回归任务,而在大型图上的节点预测任务则更为相关。最近,几项研究表明,在非常一般的随机图模型上,随着节点数量的增加,GNN会收敛到某些函数。
方法:本文通过包含以前几个例子的一般收敛概念,为节点任务生成的等变GNN函数空间提供了更完整和直观的描述。我们强调输入节点特征的作用,并研究了“节点位置编码”(PEs)的影响,这是最近的一项工作,已被证明在实践中能产生最佳效果。通过对大型随机图上的几种PEs的例子进行研究,我们将已知的普适性结果扩展到更一般的模型上。
效果:我们的理论研究结果暗示了一些规范化技巧,数值实验表明这对GNN在合成数据和真实数据上的泛化有积极影响。我们的证明包含了一些新的独立感兴趣的集中度不等式。
Computational Complexity of Learning Neural Networks: Smoothness and Degeneracy
Amit Daniely Nathan Srebro Gal Vardi
研究问题:理解神经网络何时能被有效学习是学习理论中的一个基本问题。
动机:现有的困难结果表明,对输入分布和网络权重的假设对于获得有效算法是必要的。
方法:本研究探讨了这些假设是否足以学习更深的网络,并证明了负面结果。我们展示了在高斯输入分布下学习深度为3的ReLU网络即使在平滑分析框架中也是困难的,即使权重矩阵是非退化的。
效果:我们的困难结果表明,在高斯分布下学习深度为3的ReLU网络即使在权重矩阵是非退化的情况下也是困难的。此外,我们还考虑了深度为2的网络,并在平滑分析框架中展示了学习的困难性,其中网络参数和输入分布都被平滑处理。我们的困难结果是基于对局部伪随机数生成器存在性的假设。
Limits, approximation and size transferability for GNNs on sparse graphs via graphops
Thien Le Stefanie Jegelka
研究问题:图神经网络是否能推广到与其训练图不同的图,例如大小?
动机:尽管最近的一些工作通过图极限(如通过图论)建立了这种可转移性和近似结果,但这些只适用于稠密图。为了包括常见的稀疏图,如度有限或幂律图,我们采取了从图中导出的运算符(如构成GNN的聚合操作)的视角。
方法:我们通过图极限的概念引入了图算子(graphops)的概念,并展示了如何从运算符的角度制定出有限的GNN和其在无限图上的极限之间的距离,以及在共享结构属性的不同大小的图上的GNN之间的距离的定量界限。
效果:我们的结果适用于稠密和稀疏的图,以及各种图极限的概念。
Graph Convolutional Kernel Machine versus Graph Convolutional Networks
Zhihao Wu Zhao Zhang Jicong Fan
研究问题:如何利用图卷积核函数进行图基机器学习?
动机:现有的图卷积神经网络(GCN)在处理图数据时,深度的增加往往带来的收益微小甚至为负。这意味着图数据的复杂性有限,浅层模型通常足以提取各种任务(如节点分类)的表达特征。
方法:提出了一种基于核函数与图卷积结合的图卷积核机(GCKM)框架。以图卷积核支持向量机(GCKSVM)为例,分析了其泛化误差界并讨论了图结构的影响。
效果:与GCN相比,GCKM在架构设计、超参数调整和优化上需要的努力更少。更重要的是,GCKM能保证获得全局最优解,具有强大的泛化能力和高度的可解释性。实验结果表明,除了上述优点外,GCKM在准确性上也至少与GCN相当。
Multi-resolution Spectral Coherence for Graph Generation with Score-based Diffusion
Hyuna Cho Minjae Jeong Sooyeon Jeon Sungsoo Ahn Won Hwa Kim
研究问题:如何准确估计训练数据中图组件(如节点和边)的联合分布以成功生成图。
动机:现有的深度神经网络在生成现实图形方面表现出色,但受到传统图卷积带来的过度平滑问题影响,导致节点和边的高频特性难以处理。
方法:提出一种新方法,通过在频谱空间中捕获节点和边的多分辨率依赖关系,并在共享图小波空间中对节点和边信号的联合分布进行建模,配合基于分数的扩散模型,生成具有真实感节点和边频率特性的合成图。
效果:在四个代表性基准数据集上的实验结果验证了Wave-GD优于现有方法,显示出其在涉及图数据的各种应用中的潜力。
May the Force be with You: Unified Force-Centric Pre-Training for 3D Molecular Conformations
Rui Feng Qi Zhu Huan Tran Binghong Chen Aubrey Toland Rampi Ramprasad Chao Zhang
研究问题:现有的预训练模型主要关注平衡数据,忽视了非平衡构象,如何将此类方法扩展到非平衡数据上是一个挑战。
动机:由于现有预训练模型的训练目标依赖于假设构象是局部能量最小值,因此直接从原子力学习非平衡数据的方法具有挑战性。
方法:提出一种针对3D分子构象的力中心预训练模型,该模型同时覆盖平衡和非平衡数据。对于非平衡数据,模型直接从其原子力中学习;对于平衡数据,引入零力正则化和强制基去噪技术以近似近平衡力。
效果:通过预训练目标,实验表明与未预训练的Equivariant Transformer模型相比,我们的力量精度提高了约3倍。通过在平衡数据上引入正则化,我们解决了普通Equivariant Transformers中的不稳定MD模拟问题,实现了比NequIP快2.45倍的推理速度,达到了最先进的模拟性能。作为强大的分子编码器,我们的预训练模型在最先进的属性预测任务上取得了同等的性能。
Geometric Transformer with Interatomic Positional Encoding
Yusong Wang Shaoning Li Tong Wang Bin Shao Nanning Zheng Tie-Yan Liu
研究问题:Transformer架构在各种数据模态中的广泛应用为分子建模开辟了新途径,但研究问题:Transformer架构在各种数据模态中的广泛应用为分子建模开辟了新途径,但尚不清楚基于Transformer的架构是否能够像等变图神经网络一样进行分子建模。
动机:设计了一种原子环境参数化的Transformer位置编码(IPE),提出了一种新的几何Transformer——Geoformer,以有效建模各种分子属性预测的分子结构。
方法:通过引入IPE,将原子环境参数化为Transformer的位置编码,从而提出一种新颖的几何Transformer Geoformer。
效果:在QM9数据集和最近提出的Molecule3D数据集等多个基准测试中,与Transformer和等变图神经网络模型相比,Geoformer在QM9上优于最先进的算法,并在Molecule3D的随机和支架分割上都实现了最佳性能。通过引入IPE,Geoformer为基于Transformer架构的分子几何建模铺平了道路。
Scaling MLPs: A Tale of Inductive Bias
Gregor Bachmann Sotiris Anagnostidis Thomas Hofmann
研究问题:本文旨在重新审视深度学习中最基本的构建块——多层感知器(MLP),并研究其在视觉任务上的性能极限。
动机:由于最近"较少的归纳偏差更好"的观点在transformers超越卷积模型后变得流行,因此探索这一假设的极限是很自然的。为此,MLP提供了一个理想的测试平台,因为它们没有任何与视觉相关的归纳偏差。此外,由于其数学上的简单性,MLP几乎一直是深度学习理论文献中的主要角色,作为解释更复杂架构所观察到的经验现象的代理。
方法:我们进行了大量的预训练实验,并在CIFAR10、CIFAR100和ImageNet Real三个数据集上评估了MLP的性能。
效果:我们的实验结果表明,MLP的性能随着规模的增大而显著提高(在CIFAR10上达到95%,在CIFAR100上达到82%,在ImageNet Real上达到58%),这表明缺乏归纳偏差确实可以得到补偿。我们还发现,MLP能够忠实地模仿现代同类模型的行为,但在学习设置中的一些组件表现出更强或意外的行为。
The emergence of clusters in self-attention dynamics
Borjan Geshkovski Cyril Letrouit Yury Polyanskiy Philippe Rigollet
研究问题:将Transformers视为相互作用的粒子系统,描述当权重不随时间变化时学习到的表示的几何形状。
动机:探索Transformers内部工作机制,理解其学习到的表示的几何特性。
方法:使用动态系统和偏微分方程的技术,将Transformers中的tokens视为粒子,研究其在时间趋于无穷大时的聚集行为。
效果:证明了在一维情况下,Transformers的自注意力矩阵会收敛到一个低秩布尔矩阵,从而数学上确认了Vaswani等人[ VSP`17 ]的观察结果,即在处理序列tokens时,会出现“领导者”现象。
An Inductive Bias for Tabular Deep Learning
Ege Beyazit Jonathan Kozaczuk Bo Li Vanessa Wallace Bilal H Fadlallah
研究问题:深度学习在图像、文本和音频等任务上表现优秀,但在处理表格数据时却常常不如基于树的方法。
动机:作者认为这种性能差距的主要原因是不规则的目标函数与神经网络学习平滑函数的趋势之间的交互作用。
方法:通过频谱分析工具,作者发现表格数据集描述的函数往往具有高度的不规则性,可以通过缩放和排序等转换进行平滑以改善性能。同时,为了解决这些转换在优化过程中可能丢失信息或对损失景观产生负面影响的问题,作者提出引入频率降低作为归纳偏置。
效果:该方法比全连接层引入更少的计算复杂性,同时显著提高神经网络的性能,并在14个表格数据集上加快了其收敛速度。
Facilitating Graph Neural Networks with Random Walk on Simplicial Complexes
Cai Zhou Xiyuan Wang Muhan Zhang
研究问题:本文旨在系统地分析不同阶数的简单复合体上的随机游走如何提高图神经网络的理论表达能力。
动机:尽管节点级别的随机游走已被广泛用于改进图神经网络,但对边和更高阶的$k$-单纯形上的随机游走的关注却相对有限。
方法:本文通过在不同阶数的单纯复合体上进行随机游走,设计了相应的位置编码方法。包括在0-单纯形或节点级别上,将现有的定位编码(PE)和结构编码(SE)方法通过随机游走的桥梁联系起来;在1-单纯形或边级别上,将边级随机游走与Hodge 1-Laplacians连接起来,并设计相应的边PE。
效果:实验结果表明,基于随机游走的方法在各种任务上都取得了显著的效果。
Residual Alignment: Uncovering the Mechanisms of Residual Networks
Jianing Li Vardan Papyan
研究问题:本研究旨在通过线性化残差块并测量其奇异值分解,对ResNet架构在分类任务中的表现进行深入的实证研究。
动机:尽管ResNet架构由于使用简单的跳过连接而大大提高了性能,但其成功背后的机制仍然在很大程度上未知。
方法:我们通过使用残差雅可比矩阵并将其线性化,然后测量它们的奇异值分解,来对ResNet架构进行深入研究。
效果:我们的测量结果显示了一个被称为“残差对齐”(RA)的过程,它具有四个特性:(RA1)给定输入的中间表示在高维空间中是等间距的线;(RA2)残差雅可比矩阵的上左和右奇异向量相互对齐,并且在不同的深度之间也对齐;(RA3)对于全连接的ResNets,残差雅可比矩阵的秩最多为C,其中C是类别的数量;(RA4)残差雅可比矩阵的上奇异值与深度成反比。RA过程在所有测试数据集上的各种深度和宽度、不同的类别数量以及全连接和卷积架构中都一致地出现在表现良好的模型中,但一旦跳过连接被移除,它就停止了。
Structured Neural-PI Control with End-to-End Stability and Output Tracking Guarantees
Wenqi Cui Yan Jiang Baosen Zhang Yuanyuan Shi
研究问题:本文旨在通过设计具有稳定性和输出跟踪保证的神经网络控制器,研究多输入多输出动态系统的最优控制。
动机:虽然基于神经网络的非线性控制器在各种应用中表现出优越的性能,但由于缺乏可证明的保证,限制了其在高风险现实世界应用中的采用。
方法:利用广泛存在于物理系统中的平衡无关无源性,提出了具有稳定性和零稳态输出跟踪误差保证的神经比例积分(PI)控制器。关键结构是比例和积分项的严格单调性,其参数化为严格凸神经网络(SCNN)。
效果:实验结果表明,所提出的方法改善了瞬态和稳态性能,而未结构化的神经网络则导致不稳定的行为。
Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer
Yuandong Tian Yiping Wang Beidi Chen Simon Shaolei Du
研究问题:本文旨在通过数学严谨的方式,分析Transformer模型在单层自注意力层和解码器层任务中的表现。
动机:尽管Transformer架构在多个研究领域表现出色,但其工作机制仍不明确。特别是对于简单的预测损失,如何从梯度训练动态中产生表示仍然是一个谜团。
方法:本文对1层Transformer(包含一个自注意力层和一个解码器层)的SGD训练动态进行了数学上的严格分析,揭示了其自我注意层组合输入标记的本质和潜在的归纳偏置。
效果:实验结果表明,自我注意可以作为一种"辨别性扫描算法",它逐渐将更多的关注点放在特定的下一个标记上,而对在不同下一个标记中出现的常见键标记的关注则较少。这种过程不会引发赢家通吃的现象,而是会因为解码器学习率控制的"阶段过渡"而停止,留下几乎固定的标记组合。
Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU Networks on Nearly-orthogonal Data
Yiwen Kou Zixiang Chen Quanquan Gu
研究问题:本文旨在解决非平滑神经网络通过梯度下降训练的隐含偏置问题。
动机:目前,对于同质神经网络(包括ReLU和泄漏ReLU网络),人们已经广泛研究了梯度流的隐含偏置,但对于平滑神经网络,梯度下降的隐含偏置仍然是一个未解的问题。
方法:本文通过对两个全连接层(泄漏)ReLU神经网络进行梯度下降训练,来研究梯度下降的隐含偏置。
效果:实验结果显示,当训练数据接近正交时,对于泄漏ReLU激活函数,梯度下降会找到一个稳定秩收敛到1的网络;而对于ReLU激活函数,梯度下降会找到一个稳定秩被一个常数上界约束的网络。此外,我们还发现梯度下降会找到一个所有训练数据点具有相同归一化边距的网络。在合成数据和真实数据的实验中,我们的理论发现得到了验证。
TopoSRL: Topology preserving self-supervised Simplicial Representation Learning
Hiren Madhu Sundeep Prabhakar Chepuri
研究问题:本文旨在提出一种新的自监督学习方法,用于有效地捕捉更高阶的交互作用并保留在学习表示中的拓扑结构。
动机:现有的基于图的自监督学习方法通常只关注成对的关系,忽视了捕获拓扑信息的关键长程依赖性。
方法:提出了一种名为$\texttt{TopoSRL}$的新方法,通过生成两个视图的复杂数据来丰富表示,同时保持高效。此外,还提出了一种新的复杂对比损失函数,以保留在复杂数据中存在的局部和全局信息。
效果:大量实验结果表明,相比于最先进的图自监督技术和有监督复杂神经网络模型,$\texttt{TopoSRL}$在各种数据集上表现出优越的性能,证明了其在自监督设置中处理复杂数据集合的有效性。
Simplicity Bias in 1-Hidden Layer Neural Networks
Depen Morwani jatin batra Prateek Jain Praneeth Netrapalli
研究问题:本文旨在严格定义并全面建立单隐藏层神经网络在无限宽度条件下的极端简单性偏见(SB)。
动机:最近的研究表明,神经网络表现出了极端的简单性偏见,即它们只学习最简单的特征来解决手头的任务,即使在存在其他更强大但更复杂的特征的情况下。
方法:我们通过在无限宽度条件下对单隐藏层神经网络进行严格的定义和全面的建立,来深入探究这一问题。具体来说,(i)我们将SB定义为网络基本上是输入的低维投影的函数;(ii)理论上,我们证明当数据是线性可分时,即使存在大量其他更复杂的特征,网络主要依赖于线性可分的一维子空间;(iii)实证上,我们证明在真实数据集如Imagenet和Waterbirds-Landbirds上训练的模型确实依赖于输入的低维投影,从而证明了这些数据集上的SB;(iv)最后,我们提出了一种自然的集成方法,通过让后续模型在早期模型未使用的特征上进行训练,来鼓励模型的多样性,并证明这种方法产生的模型对高斯噪声具有显著的鲁棒性。
效果:大量实验结果表明,相比于最先进的图自监督技术和有监督复杂神经网络模型,$\texttt{TopoSRL}$在各种数据集上表现出优越的性能,证明了其在自监督设置中处理复杂数据集合的有效性。
Going Beyond Linear Mode Connectivity: The Layerwise Linear Feature Connectivity
Zhanpeng Zhou Yongyi Yang Xiaojiang Yang Junchi Yan Wei Hu
研究问题:本文旨在揭示神经网络训练中的一种现象——线性模式连接(LMC),并进一步提出更强的概念——逐层线性特征连接(LLFC)。
动机:尽管神经网络的训练损失景观和动态过程复杂且理解不足,但最近的研究发现了许多有趣的实证现象。其中,LMC引起了广泛关注,因为它观察到不同的解决方案可以在参数空间中通过线性路径连接,同时保持接近恒定的训练和测试损失。
方法:本文提出了一个更强的概念——逐层线性特征连接(LLFC),它认为不同训练网络的每一层的特征映射也是线性连接的。作者在各种设置下提供了全面的实证证据,证明只要两个训练网络满足LMC(通过生成或置换方法),它们在几乎所有层上都满足LLFC。
效果:这项对LLFC的研究超越了并推进了我们对LMC的理解,通过采用特征学习的视角。
High dimensional, tabular deep learning with an auxiliary knowledge graph
Camilo Ruiz Hongyu Ren Kexin Huang Jure Leskovec
研究问题:对于高维特征但样本量有限的表格型数据集,机器学习模型往往表现不佳。
动机:大量的辅助领域信息可以结构化为异构知识图谱,用于描述输入特征,这可能有助于改善模型性能。
方法:提出PLATO方法,通过使用辅助的知识图谱来正则化多层感知机(MLP),以实现对高维特征的表格型数据的良好处理。在PLATO中,每个输入特征对应于辅助知识图谱中的一个节点,并在MLP的第一层中,每个输入特征也对应一个权重向量。
效果:在6个高维特征但样本量有限的数据集上,PLATO超越了13种最先进的基线方法,最高达到了10.19%的性能提升。
Inner Product-based Neural Network Similarity
Wei Chen Zichen Miao Qiang Qiu
研究问题:如何有效地评估和比较在大量神经网络模型中表示的相似性。
动机:在许多应用中,需要评估和比较不同神经网络模型的相似性,但现有的方法计算效率低下。
方法:提出一种新的方法,将卷积滤波器分解为一组滤波子空间元素(称为滤波原子),并共享这些分解原子系数,从而简化神经网络表示的相似性计算为计算各自滤波原子之间的余弦距离。
效果:该方法在理论和实证上都证明了其有效性,不仅保留了与流行探针基础指标的强线性相关性,而且获取效率高,对探针数据的鲁棒性强。在联邦学习和持续学习等存在大量模型的应用中,该方法的效果也得到了验证。
A new perspective on building efficient and expressive 3D equivariant graph neural networks
weitao Du Yuanqi Du Limei Wang Dieqiao Feng Guifeng Wang Shuiwang Ji Carla P Gomes Zhi-Ming Ma
研究问题:本文旨在通过局部到全局的分析,评估等变图神经网络在编码3D对称性方面的表达能力。
动机:尽管在将3D对称性编码到图神经网络(GNNs)方面取得了快速进展,但目前还缺乏对这些网络架构表达能力的全面评估。
方法:本文提出了一种局部3D同构层次结构来评估等变GNN的表达能力,并研究了从局部补丁表示全局几何信息的过程。这导致设计出两个关键的模块用于设计表现力强且高效的几何GNNs,即局部子结构编码(LSE)和框架转换编码(FTE)。
效果:为了证明理论的适用性,我们提出了LEFTNet,该模型有效地实现了这些模块,并在标量值和向量值分子属性预测任务上取得了最先进的性能。我们还指出了未来3D等变图神经网络的设计空间。
CosNet: A Generalized Spectral Kernel Network
Yanfang Xue Pengfei Fang Jinyue Tian Shipeng Zhu hui xue
研究问题:如何充分利用复数值特征映射来提高时间序列数据的表示能力。
动机:现有的基于频谱核的方法由于消除了虚部,限制了其表示能力。
方法:提出了一种广义的频谱核网络(CosNet),包括频谱核映射一般化模块和复数值频谱核嵌入模块。
效果:实验证明,CosNet优于主流的核方法和复数值神经网络。
Concept Algebra for (Score-Based) Text-Controlled Generative Models
Zihao Wang Lin Gui Jeffrey Negrea Victor Veitch
研究问题:本文关注基于文本的生成模型中学习到的表示结构,特别是基于分数的模型。
动机:这类模型的一个关键特性是它们能够以“解缠”的方式组合不同的概念,这表明这些模型的内部表示以“解缠”的方式编码概念。
方法:我们专注于概念被编码为某种表示空间的子空间的想法,并为此制定了一个简单方法来识别表示中对应于给定概念的部分。
效果:通过使用Stable Diffusion的例子,我们展示了这个想法,证明了可以通过代数操作表示来操纵模型表达的概念。
Recurrent Temporal Revision Graph Networks
YIZHOU CHEN Anxiang Zeng Qingtao Yu Kerui Zhang Cao Yuanpeng Kangle Wu Guangda Huzhang Han Yu Zhiming Zhou
研究问题:如何更准确地对现实世界中的许多场景进行建模,特别是在时间图网络中进行邻居聚合的问题。
动机:虽然静态图可以提供一些现实世界的模型,但时间图提供了更精确的模型。然而,目前的时间图网络在进行邻居聚合时,通常是直接从静态图中扩展过来的,这在计算上可能会非常昂贵。
方法:我们提出了一种新的框架来进行时间邻居聚合,该框架使用带有节点隐藏状态的循环神经网络来整合每个节点的所有历史邻居的信息,以获取完整的邻居信息。
效果:实验结果表明,我们的方法在理论上具有更强的表达能力,并在实际应用中取得了最先进的性能。在真实的电子商务数据集上,我们的方法比现有的方法平均提高了9.4%的精度。
Learning Rule-Induced Subgraph Representations for Inductive Relation Prediction
Tianyu Liu Qitan Lv Jie Wang Shuling Yang Hanzhu Chen
研究问题:如何有效地从知识图谱中学习规则引导的子图表示,以完成不断发展的知识图谱。
动机:现有的方法在处理目标链接和其他链接的消息传递时无法区分,导致最终的子图表示包含与目标链接无关的规则信息,降低了推理性能,严重阻碍了实际应用。
方法:提出了一种新颖的单源边逐条GNN模型来学习规则引导的子图表示(REST),该模型在子图中编码相关规则并消除无关规则。具体来说,我们提出了一种单源初始化方法,只为目标链接初始化边特征,确保挖掘出的规则和目标链接的相关性。然后,我们提出了几种基于RNN的边逐条消息传递函数,以模拟挖掘出的规则的序列性质。
效果:实验结果表明,我们的REST在归纳关系预测基准测试中非常有效。此外,REST不需要节点标记,可以显著加速子图预处理时间最多11.66倍。
Molecule Joint Auto-Encoding: Trajectory Pretraining with 2D and 3D Diffusion
weitao Du Jiujiu Chen Xuecang Zhang Zhi-Ming Ma Shengchao Liu
研究问题:如何更好地利用机器学习技术进行药物发现,特别是分子几何形状的表示。
动机:药物发现的基本原理是分子几何形状,因此,分子的几何表示是更好地利用机器学习技术进行药物发现的主要瓶颈。
方法:提出一种分子联合自编码预训练方法(MoleculeJAE),可以学习二维键(拓扑)和三维构象(几何)信息,并应用扩散过程模型模拟这两种模态的增强轨迹,基于此,MoleculeJAE将以自监督的方式学习内在的化学结构。
效果:实验证明,与12个竞争性基线相比,MoleculeJAE在20个任务中的15个达到了最先进的性能,显示出其有效性。
Self-Supervised Learning of Representations for Space Generates Multi-Modular Grid Cells
Rylan Schaeffer Mikail Khona Tzuhsuan Ma Cristobal Eyzaguirre Sanmi Koyejo Ila R Fiete
研究问题:哺乳动物如何通过显著的空间表示来解决映射、定位和导航的空间问题。
动机:哺乳动物的神经系统发展出了一种奇特的网格细胞,这种细胞能以看似奇怪的非局部和周期性活动模式来表示自我位置这一局部和非周期性量。
方法:通过动态系统、编码理论、函数优化和监督深度学习四种方法,提出了一种新的自监督学习框架,该框架无需访问监督位置信息,可以产生多个网格细胞模块,并能在训练分布之外进行泛化。
效果:实验结果表明,该方法不仅可以解释网格细胞的起源,也为机器学习研究者提供了新的自监督学习框架。
Modeling Dynamics over Meshes with Gauge Equivariant Nonlinear Message Passing
Jung Yeon Park Lawson L.S. Wong Robin Walters
研究问题:如何在计算机图形学、生物和物理系统中处理非欧几里得流形上的数据,特别是在曲面网格上的偏微分方程(PDEs)的求解。
动机:虽然图神经网络已被成功应用于PDEs,但它们并未考虑到曲面几何形状和局部规范对称性。而现有的在网格上利用底层几何形状的架构,在模拟具有复杂非线性动态的曲面PDEs时表现不佳。
方法:我们提出了一种新的基于非线性消息传递的规范等变架构。这种新型架构在高度复杂和非线性动态的领域中的表现优于卷积或注意力网络。
效果:然而,与非网格情况类似,不同的任务更适合使用卷积、注意力或消息传递网络;我们调查了在何种情况下,我们的消息传递方法能提供最大的效益。
Energy Transformer
Benjamin Hoover Yuchen Liang Bao Pham Rameswar Panda Hendrik Strobelt Duen Horng Chau Mohammed J Zaki Dmitry Krotov
研究问题:本文旨在结合注意力机制、能量模型和联想记忆,提出一种新的架构——能量转换器(ET),用于优化语言表示。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。同时,提出了一种新架构——能量转换器(ET),使用一系列专门设计的注意力层来最小化特定的能量函数,以表示标记之间的关系。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。此外,能量转换器在图像完成、图异常检测和图分类任务上也表现出强大的能力。
Expressive probabilistic sampling in recurrent neural networks
Shirui Chen Linxing Preston Jiang Rajesh P. N. Rao Eric Todd SheaBrown
研究问题:本研究旨在探索递归神经网络电路如何从复杂的概率分布中进行采样。
动机:目前的神经活动模型假设神经活动是从大脑用于概率计算的概率分布中抽取的样本,但对于神经动力学如何从任意分布中进行采样的全面理解仍然缺乏。
方法:使用功能分析和随机微分方程的工具,探讨了递归神经网络电路从复杂分布中进行采样所需的最小架构要求。首先考虑传统的采样模型,该模型由一组神经元组成,其输出直接表示样本(仅采样器网络)。然后,我们证明了具有单独输出单元的递归神经网络电路的放电率动态可以从未标记的数据中学习复杂的非线性函数。
效果:通过实证分析,我们的模型能够从几个复杂的数据分布中进行采样,展示了其在开发下一代基于采样的贝叶斯脑模型中的适用性。
Cross-links Matter for Link Prediction: Rethinking the Debiased GNN from a Data Perspective
Zihan Luo Hong Huang Jianxun Lian Xiran Song Xing Xie Hai Jin
研究问题:本文旨在解决图神经网络(GNN)在链接预测中存在的偏见问题。
动机:现有的GNN模型在处理内部链接和跨链接时存在严重的数据偏见,这对信息孤岛的形成和图的连通性保持产生了影响。
方法:本文设计了一个简单而有效的双结构框架,通过生成无偏的节点嵌入并将其融合到原始GNN的嵌入中,以减轻偏见并提高其效用。
效果:实验结果表明,该框架不仅可以缓解内部链接和跨链接之间的偏见,还可以提高整体准确率,并在与现有最先进技术的比较中验证了其优越性。
ANTN: Bridging Autoregressive Neural Networks and Tensor Networks for Quantum Many-Body Simulation
Zhuo Chen Laker Newhouse Eddie Chen Di Luo Marin Soljacic
研究问题:量子多体物理模拟对于理解基础科学和量子材料设计、量子技术的应用有重要影响,但由于希尔伯特空间的大小随粒子数量呈指数级增长,直接模拟难以处理。
动机:目前,张量网络和神经网络是近似模拟的两种最先进的方法,但在表达能力和诱导偏差方面各有局限。
方法:我们开发了一种新颖的架构——自回归神经张量网(ANTN),将张量网络和自回归神经网络相结合。
效果:实验表明,自回归神经张量网能参数化归一化波函数,允许精确采样,提升张量网络和自回归神经网络的表达能力,并继承自回归神经网络的各种对称性。我们在量子态学习和寻找具有不同系统大小和耦合参数的具有挑战性的二维J1-J2海森堡模型的基态方面表现出色,超越了张量网络和自回归神经网络。我们的工作为量子多体物理模拟、量子技术设计和人工智能中的生成建模开辟了新的机会。
Probabilistic Invariant Learning with Randomized Linear Classifiers
Leonardo Cotta Gal Yehuda Assaf Schuster Chris J. Maddison
研究问题:设计既具有表达能力又能保持任务已知不变性(invariances)的模型是一个日益困难的问题。
动机:现有的解决方案在保持任务不变性与计算或内存资源之间进行权衡。本研究通过引入随机性,展示了如何设计出既具有表达能力又保持任务不变性,但使用更少资源的模型。
方法:受随机化算法的启发,我们提出了一类名为随机线性分类器(RLCs)的二进制分类模型。我们给出了参数和样本大小条件,在这些条件下,RLCs可以以高概率近似任何(平滑)函数,同时保持对紧群变换的不变性。
效果:利用这一结果,我们设计了三种RLCs,它们在集合、图和球面数据的分类任务上被证明具有概率不变性。我们展示了这些模型如何使用比确定性神经网络及其不变对应物更少的资源来实现概率不变性和通用性。最后,我们在确定性不变神经网络表现不佳的不变任务上,实证证明了这类新模型的优势。
Exploiting Connections between Lipschitz Structures for Certifiably Robust Deep Equilibrium Models
Aaron J Havens Alexandre Araujo Siddharth Garg Farshad Khorrami Bin Hu
研究问题:深度平衡模型(DEQs)的认证鲁棒性理解远不如显式网络模型。
动机:通过探索各种显式和隐式模型的Lipschitz网络参数化之间的联系,提高对DEQs认证鲁棒性的理解。
方法:将流行的Lipschitz网络结构,包括凸势层(CPL)、基于SDP的Lipschitz层(SLL)、几乎正交层(AOL)、三明治层和单调DEQs(MonDEQ)重新参数化为Lipschitz约束均衡网络(LBEN)的特殊案例,同时不改变原始网络参数化中的预定Lipschitz常数。
效果:实证结果显示,该方法提高了DEQs在分类任务上的认证鲁棒准确性。
Uncovering Meanings of Embeddings via Partial Orthogonality
Yibo Jiang Bryon Aragam Victor Veitch
研究问题:本文探讨了如何将语言的语义结构编码在嵌入向量的代数结构中。
动机:尽管直观上理解"茄子"和"西红柿"在"蔬菜"的条件下是独立的,但形式化这种语义独立性的概念却很困难。因此,需要一种符合独立性公理的代数结构来捕捉这种语义结构。
方法:我们使用偏正交性作为相关的代数结构,并开发理论和方法来证明偏正交性确实能捕捉到语义独立性。同时,我们还引入了保持条件独立结构的嵌入概念,并证明了这类嵌入的存在性和近似性。
效果:通过以上方法,我们成功地将语言的语义结构编码在嵌入向量的代数结构中,为进一步理解和利用自然语言提供了新的视角和工具。
Learning threshold neurons via edge of stability
Kwangjun Ahn Sebastien Bubeck Sinho Chewi Yin Tat Lee Felipe Suarez Yi Zhang
研究问题:现有的神经网络训练分析通常在非常小的学习率下进行,这与实际经验和实证研究存在明显差异。本研究旨在通过详细分析大型学习率下的非凸训练动态来理解这一问题。
动机:虽然近期有许多关于此主题的研究,但大学习率下的训练效果及其对泛化能力的潜在好处仍然不明确。
方法:通过对简化的两层神经网络模型进行梯度下降分析,我们证明了稳定性边缘现象,并发现了步长小于某一阈值时,神经网络无法学习到“阈值类”神经元的现象。
效果:这一发现阐明了稳定性边缘可能实际上导致更好泛化的一种可能机制,因为阈值神经元是许多任务的基本构建块,具有有用的归纳偏置。
Isometric Quotient Variational Auto-Encoders for Structure-Preserving Representation Learning
In Huh changwook jeong Jae Myung Choe Young-Gu Kim Dae Sin Kim
研究问题:如何利用变分自动编码器(VAEs)对嵌入在高维观测空间中的数据流形进行结构保持的低维表示。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:通过将数据流形分解为对称变换群和流形的商空间,定义了这种流形的结构保持表示为与商空间而不是流形同构(即距离保持)的潜在空间。为此,提出了一种新的自编码框架,名为等距商VAEs(IQVAEs),可以从观察中提取商空间并以一种无监督的方式学习提取的商的黎曼几何。
效果:实验证明,该方法可以发现学习到的数据的有意义的表示,并在下游任务中优于其他竞争对手。
Are GATs Out of Balance?
Nimrah Mustafa Aleksandar Bojchevski Rebekka Burkholz
研究问题:本研究旨在探索图神经网络(GNNs)的优化和学习动态,特别是针对一种流行的GNN架构——图注意力网络(GAT)。
动机:尽管图神经网络的表达能力和计算能力在理论上得到了研究,但其优化和学习动态在很大程度上仍未被探索。特别是在图注意力网络中,大部分参数在标准初始化后的训练过程中难以改变,这一问题在深层网络中更为严重。
方法:我们提出了一种新的初始化方案,以平衡图注意力网络。这种方法不仅使深层网络的训练成为可能,而且与标准初始化相比,训练和收敛时间大大加快。
效果:我们的主定理为研究具有注意力机制的正齐次模型的学习动态奠定了基础。
Approximation-Generalization Trade-offs under (Approximate) Group Equivariance
Mircea Petrache Shubhendu Trivedi
研究问题:本文旨在通过对称性显式引入任务特定的归纳偏差,以开发高性能的机器学习模型。
动机:例如,群等变神经网络在蛋白质和药物设计等多个领域和应用中表现出了令人印象深刻的性能。这种模型的一个普遍直觉是,相关对称性的整合会增强泛化能力。此外,当数据和/或模型仅呈现近似或部分对称性时,最优或性能最佳的模型是模型对称性与数据对称性对齐的模型。
方法:我们首先提出了一些定量的界限,用以展示捕捉任务特定对称性的模型如何提高泛化能力。然后,我们利用这个量化结果来探讨处理近似/部分对称性的更一般的问题。
效果:我们为给定的对称群建立了模型近似等变性和数据分布等变性之间的定量比较,从而精确地连接了模型等变性误差和数据等变性误差。我们的研究结果明确了模型等变性误差最优的条件,从而为给定的任务和数据产生了性能最佳的模型。
Fragment-based Pretraining and Finetuning on Molecular Graphs
Kha-Dinh Luong Ambuj Singh
研究问题:如何有效利用未标记的分子数据进行图神经网络(GNN)的预训练?
动机:未标记的分子数据大量存在,这为化学领域的GNN自我监督学习提供了便利。
方法:提出在片段级别对GNN进行预训练的方法,通过借鉴最近关于主子图挖掘的工作,从大型预训练数据集中提取出常见的片段词汇表,并基于此设计了几种片段对比和预测预训练任务。
效果:实验结果显示,该方法在8个常见分子基准测试中的5个上提高了性能,并且在长范围生物基准测试上的性能至少提高了11.5%。
Exact Representation of Sparse Networks with Symmetric Nonnegative Embeddings
Sudhanshu Chanpuriya Ryan A. Rossi Anup Rao Tung Mai Nedim Lipka Zhao Song Cameron N Musco
研究问题:现有的基于邻接矩阵分解的图模型往往无法捕捉到不同节点之间的链接(异质性)的网络结构。
动机:我们提出了一种新的图因子分解模型,利用每个节点的两个非负向量来解释相似和不同节点之间的链接。
方法:我们的模型可以精确表示任何具有低度树性的图,这是一种许多现实世界网络都满足的属性。此外,由于其对称结构和非负性,拟合该模型会自然地找到节点社区,并且模型的链接预测可以从这些社区的角度进行解释。
效果:在真实世界网络的实验中,我们在各种任务上展示了我们的因子分解的有效性,包括社区检测和链接预测。
Large language models transition from integrating across position-yoked, exponential windows to structure-yoked, power-law windows
David Skrill Samuel Victor Norman-Haignere
研究问题:本文旨在探索大型语言模型(LLMs)中的时间整合模式,并尝试理解其与生物神经网络系统的相似性。
动机:人类大脑对语言的反应显示出分层组织的“整合窗口”,这大大限制了输入标记(如单词)对神经反应的总体影响。然而,很少有研究试图使用整合窗口来描述大型语言模型中的计算。
方法:我们开发了一种简单的词交换程序,用于从黑箱语言模型中估计整合窗口,而无需访问梯度或了解模型架构(如注意力权重)。
效果:训练后的大型语言模型展现出刻板的整合窗口,这些窗口可以通过指数函数和幂函数的凸组合很好地拟合,并且在网络层之间部分地从指数动态过渡到幂律动态。我们发现,随着网络层数的增加,整合窗口越来越受到结构的限制。这些发现在未训练的模型中都没有观察到。
What Can We Learn from Unlearnable Datasets?
Pedro Sandoval-Segura Vasu Singla Jonas Geiping Micah Goldblum Tom Goldstein
研究问题:在数据抓取普遍的时代,使用不可学习数据集方法有可能通过防止深度神经网络泛化来保护数据隐私。
动机:尽管不可学习数据集方法在实际应用中存在许多限制使其使用可能性不大,但我们发现这种方法对数据的保护能力存在问题。
方法:我们训练神经网络在不可学习的数据集上,发现网络实际上可以学习到有用的特征,这些特征可以通过重新加权以提高测试性能,这表明图像保护无法得到保证。我们还提出了一种正交投影攻击,允许从不可学习的数据集进行学习。
效果:我们的研究结果挑战了不可学习数据集方法能够保护数据隐私的观念,同时我们的正交投影攻击比最近提出的方法简单得多。
CORNN: Convex optimization of recurrent neural networks for rapid inference of neural dynamics
Fatih Dinc Adam Shai Mark Schnitzer Hidenori Tanaka
研究问题:如何有效地训练大规模的循环神经网络(dRNNs)以解析和控制动物行为中的大型神经群体?
动机:光学和电生理记录技术的发展使得实时训练大规模神经网络成为可能,为研究和医学应用提供了新的可能。
方法:提出了一种名为“循环神经网络的凸优化”(CORNN)的训练方法,该方法在模拟记录中实现了比传统优化方法快100倍的训练速度,同时保持或提高了模型的准确性。
效果:通过在标准计算机上以亚分钟的处理时间训练具有数百万个参数的dRNNs,CORNN为实现对大规模神经记录的实时网络再现迈出了第一步,并为推进神经计算理解提供了强大的计算工具。
Feature-Learning Networks Are Consistent Across Widths At Realistic Scales
Nikhil Vyas Alexander Atanasov Blake Bordelon Depen Morwani Sabarish Sainathan Cengiz Pehlevan
研究问题:本文研究了宽度对各种架构和数据集的特征学习神经网络动力学的影响。
动机:早期的在线数据训练中,宽神经网络不仅具有相同的损失曲线,而且在训练过程中的点预测上也保持一致。对于像CIFAR-5m这样的简单任务,在现实宽度的网络中,这种现象在整个训练过程中都存在。
方法:通过使用不同的网络宽度进行训练和测试,观察其在不同任务和训练阶段的表现,以及模型的内部表示、预激活分布、稳定性边缘现象和大学习率效应等结构特性。
效果:实验结果表明,宽神经网络在早期训练阶段具有较好的一致性,但在较难的任务(如ImageNet和语言建模)和后期训练阶段,有限宽度的偏差会逐渐增大。这种偏差主要由网络输出的初始值依赖方差缩放(与宽度成反比)和窄宽度偏见(窄网络的集成表现不如单一宽网络)两个因素导致。最后,从频谱角度探讨了有限宽度偏见的起源。
The Crucial Role of Normalization in Sharpness-Aware Minimization
Yan Dai Kwangjun Ahn Suvrit Sra
研究问题:本研究旨在理解Sharpness-Aware Minimization(SAM)优化器中归一化的作用。
动机:SAM是一种梯度基础的优化器,可以显著提高深度神经网络的预测性能,而其成功的原因引起了人们的关注。
方法:通过理论和实证研究,探讨了归一化在SAM中对凸和非凸函数的影响。
效果:研究发现,归一化有两个关键作用:一是帮助稳定算法;二是使算法能够在极小值的连续体上漂移,这是SAM取得更好性能的关键。这两个属性使得SAM对超参数的选择具有鲁棒性,支持了SAM的实用性。这一结论得到了各种实验的支持。
On the impact of activation and normalization in obtaining isometric embeddings at initialization
Amir Joudaki Hadi Daneshmand Francis Bach
研究问题:探索深度神经网络中倒数第二Gram矩阵的结构,并解决其初始化时退化导致训练速度减慢的问题。
动机:在多个架构中观察到,该Gram矩阵在初始化时会退化,严重影响训练速度。尽管归一化层如批量或层归一化在防止等级崩溃问题上起到了关键作用,但现有的理论结果并未扩展到广泛使用的变换器中的层归一化,也不能量化非线性激活的作用。
方法:我们证明,层归一化与激活层相结合,会在初始化时以指数速率将多层感知器的Gram矩阵偏向单位矩阵。我们使用激活函数的埃尔米特展开来量化这一速率。
效果:实验结果表明,该方法能有效防止Gram矩阵的退化问题,提高训练速度,为深度学习模型的训练提供了新的视角和理论支持。
Zero-One Laws of Graph Neural Networks
Sam Adam-Day Theodor-Mihai Iliant Ismail Ilkan Ceylan
研究问题:本文旨在探讨图神经网络(GNN)在节点数量非常大时的行为,以及其表示和外推能力的理论限制。
动机:图神经网络是图上机器学习的标准深度学习架构,但其表示和外推能力的理论界限尚未明确。
方法:通过从Erdős–Rényi模型中抽取不同大小的图,分析这些图被图神经网络分类器映射到特定输出的概率。
效果:研究发现,当图的节点数量增大时,图神经网络将图映射到特定输出的概率趋向于零或一,这为图神经网络建立了“零一定律”,并揭示了其理论容量的限制。
What can a Single Attention Layer Learn? A Study Through the Random Features Lens
Hengyu Fu Tianyu Guo Yu Bai Song Mei
研究问题:本文旨在对Transformer架构中的核心构建模块——注意力层进行理论研究,探讨其学习与泛化能力。
动机:Transformer架构在现代人工智能领域取得了重大突破,而注意力层作为其核心组成部分,对于理解其工作机制和提升模型性能具有重要意义。
方法:本文针对具有多个头的注意力层进行理论分析,以一系列关键向量和一个独立的查询向量作为输入,考虑了随机特征设置,即注意力层具有大量头,查询和关键矩阵是随机采样的冻结矩阵,值矩阵是可训练的。
效果:研究发现,这种随机特征注意力层可以表达一大类目标函数,这些函数对于关键向量是置换不变的。此外,还提供了使用有限数量头的随机特征注意力从有限样本中学习这些目标函数的超额风险界限。实验结果证实了理论发现,并进一步揭示了样本大小和目标函数复杂性之间的相互作用。
Formalizing locality for normative synaptic plasticity models
Colin Bredenberg Ezekiel Williams Cristina Savin Blake Aaron Richards Guillaume Lajoie
研究问题:如何定义和操作局部性,以明确哪些学习算法可以被认为是生物上合理的?
动机:当前对于大脑中突触可塑性的新模型的提出,大多基于机器学习原理,但"生物学上合理"的学习算法的定义模糊不清。
方法:提出了局部性的正式和操作性定义,明确了如果一个算法要符合特定的(生物)约束条件,那么在它的学习规则中不能包含哪些量。
效果:通过这个框架,可以从各种具有鲁棒性的、对神经网络架构的选择具有任意性的生物学上合理的突触可塑性模型中提炼出可测试的预测。因此,这个框架可以用来指导关于生物学合理性的声明,并找出可能的方法来实验性地证伪提出的大脑学习算法。
From Trainable Negative Depth to Edge Heterophily in Graphs
Yuchen Yan Yuzhong Chen Huiyuan Chen Minghua Xu Mahashweta Das Hao Yang Hanghang Tong
研究问题:寻找能够提供强大表示能力的图卷积网络(GCN)的适当深度$d$,仍是图学习社区的一个重大挑战。
动机:尽管在图学习领域已经取得了显著的进步,但GCN的深度或层数是由一系列的图卷积操作实现的,这自然使得$d$是一个正整数($d \in \mathbb{N}+$)。因此,一个问题是,通过将$d$定义为一个可连续调整的实数($d \in mathbb{R}$),是否能够为图学习机制带来新的启示。
方法:本文重新定义了GCN的深度$d$为一个可在$(-\infty,+\infty)$内连续调整的训练参数,从而打开了一扇新的大门,可以通过控制其信号处理能力来模拟图的同质性/异质性(具有相似/不同标签/属性的节点倾向于相互连接)。提出了一种简单而强大的GCN模型TEDGCN,它既保留了GCN的简洁性,同时又能在无需预先了解输入图是否同质或异质的情况下自动搜索最优的$d$。负值的$d$通过增强拓扑结构实现了对图异质性的高通频率过滤功能。
效果:大量的实验表明,TEDGCN在各种同质和异质图的节点分类任务上具有优越的性能。
Neural Data Transformer 2: Multi-context Pretraining for Neural Spiking Activity
Joel Ye Jennifer L Collinger Leila Wehbe Robert Gaunt
研究问题:如何有效地利用大规模无监督预训练来学习神经棘波活动的表示。
动机:当前的神经棘波活动模型主要针对单个实验环境,限制了数据量和深度神经网络的有效性。
方法:开发了一种名为Neural Data Transformer 2(NDT2)的时空变压器模型,用于神经棘波活动,并证明预训练可以利用跨越会话、主题和实验任务的电机BCI数据集。
效果:NDT2能够快速适应下游解码任务中的新环境,为iBCI控制打开了预训练DNN部署的道路。
Neural approximation of Wasserstein distance via a universal architecture for symmetric and factorwise group invariant functions
Samantha Chen Yusu Wang
研究问题:如何设计一种有效的神经网络来近似复杂对象(如点集和图)之间的连续和对称的积函数(如距离函数),并使其具有因式群不变性。
动机:在机器学习应用中,学习复杂对象之间的距离函数(如点集间的Wasserstein距离)是一个常见的目标。然而,这些函数需要对各种群作用(如排列或刚体变换)具有不变性。因此,我们需要开发一种新的神经网络架构来实现这一目标。
方法:本文首先提出了一种用于逼近SFGI函数的通用神经网络架构。然后,我们将这种通用神经网络与一种素描思想相结合,以开发一种特定且高效的神经网络,可以近似点集间的第p个Wasserstein距离。
效果:从理论上讲,我们的研究首次证明了存在一种具有有限模型复杂度的神经网络,可以近似Wasserstein距离。从实证上看,我们提出的新神经网络架构在性能上优于其他模型(包括最新的基于Siamese Autoencoder的方法)。特别是,我们的神经网络比最新的Siamese AE泛化能力更强,训练速度更快。
Learning better with Dale’s Law: A Spectral Perspective
Pingsheng Li Jonathan Cornford Arna Ghosh Blake Aaron Richards
研究问题:大多数循环神经网络(RNNs)并未包含真实神经电路的基本约束条件:戴尔定律,即神经元必须是兴奋性(E)或抑制性(I)。戴尔定律通常在RNNs中缺失,因为简单地将标准网络的单元分为E和I群体会损害学习。
动机:尽管戴尔定律在RNNs中的表现不佳,但作者扩展了最近的一种受生物启发的EI网络架构——戴尔人工神经网络(Dale's ANNs),并在循环网络中展示了良好的性能,同时尊重戴尔定律。
方法:作者通过比较不同网络的奇异值分布、谱性质以及性能,探讨了为何某些形式的EI网络学习效果差,而其他形式则学习效果好。此外,作者还提出了标准化SVD熵作为衡量谱病态与性能之间关系的指标。
效果:研究发现,简单的EI划分会导致奇异值分布呈现多模态且分散,而标准的RNNs和循环戴尔人工神经网络具有单模态、更集中的奇异值分布。此外,对于具有较少I单元的小网络,其谱性质和性能更差。总体而言,这项工作为神经科学启发的AI和计算神经科学领域的一个长期未解之谜提供了新的见解,为使神经网络与生物学更加一致铺平了道路。
Long Sequence Hopfield Memory
Hamza Tahir Chaudhry Jacob A Zavatone-Veth Dmitry Krotov Cengiz Pehlevan
研究问题:如何提高序列记忆模型的序列容量,并实现对高度相关模式序列的召回。
动机:现有的序列记忆模型由于记忆间的干扰,其序列容量有限。
方法:通过引入非线性交互项来增强模式之间的分离度,从而扩大序列容量。同时,提出一种广义伪逆规则来召回高度相关的模式序列。
效果:新的模型在序列容量上显著优于基于传统霍普菲尔德网络的模型,且能成功召回高度相关的模式序列。此外,该模型还可以存储状态转换时间可变的序列,并在生物学上具有可行性。
Fixing the NTK: From Neural Network Linearizations to Exact Convex Programs
Rajat Vadiraj Dwaraknath Tolga Ergen Mert Pilanci
研究问题:本文旨在通过理论分析深度神经网络,探讨两种主要方向:1)通过神经切线核(NTK)理解无限隐藏层宽度和无限小学习率下神经网络的SGD训练;2)通过锥约束凸性重构ReLU网络来全局优化正则化训练目标。
动机:目前的理论研究主要集中在深入理解神经网络的训练过程和全局优化训练目标上。
方法:本文将锥约束凸性重构的ReLU网络的凸规划解释为带有加权数据掩蔽特征映射的多核学习(MKL)模型,并建立了与神经切线核(NTK)的联系。具体来说,我们展示了对于不依赖于学习目标的特殊掩蔽权重选择,该内核等于训练数据上gated ReLU网络的NTK。
效果:通过使用迭代重加权,我们改进了由NTK诱导的权重以获得最优的MKL内核,这等同于gated ReLU网络精确凸性重构的解决方案。我们还提供了几个数值模拟来证实我们的理论。此外,我们还通过对组套索的一致性结果进行分析,对所得最优内核的预测误差进行了分析。
PlanE: Representation Learning over Planar Graphs
Radoslav Dimitrov Zeyang Zhao Ralph Abboud Ismail Ilkan Ceylan
研究问题:设计一种有效学习平面图完全不变式的架构。
动机:尽管图神经网络在图表示学习中表现出色,但其学习的图不变式是不完全的,特别是在已知有高效图同构测试算法的特殊图类(如平面图)上。
方法:受Hopcroft和Tarjan的经典平面图同构算法启发,提出PlanE作为平面表示学习框架,包括可以学习平面图完全不变式且保持实际可扩展性的架构。
效果:实验结果证明,该模型架构在著名的平面图基准测试上表现出强大的性能,实现了多个最先进的结果。
Loss Dynamics of Temporal Difference Reinforcement Learning
Blake Bordelon Paul Masset Henry Kuo Cengiz Pehlevan
研究问题:尽管强化学习在许多应用中取得了成功,但其模型参数和状态表示特征如何相互作用以控制学习动态的理论理解仍然缺乏。
动机:为了填补这一理论空白,本文使用统计物理学的概念来研究强化学习的学习曲线。
方法:通过平均轨迹的随机性,将其替换为具有时间相关性的高斯特征平均值,并验证了我们的假设。
效果:我们发现,由于可能的情节空间的子采样产生的随机半梯度噪声,导致值误差显著的平台效应,这与传统的梯度下降动力学不同。我们研究了学习动态和平台效应如何依赖于特征结构、学习率、折扣因子和奖励函数。然后,我们分析了学习率退火和奖励塑造等策略如何有利于改变学习动态和平台效应。总的来说,我们的研究为开发强化学习的学习动态理论提供了新的工具。
When Do Graph Neural Networks Help with Node Classification? Investigating the Homophily Principle on Node Distinguishability
Sitao Luan Chenqing Hua Minkai Xu Qincheng Lu Jiaqi Zhu Xiao-Wen Chang Jie Fu Jure Leskovec Doina Precup
研究问题:本文旨在解决图神经网络(GNN)在节点分类任务上的性能优势是否仅研究问题:本文旨在解决图神经网络(GNN)在节点分类任务上的性能优势是否仅由同质性原则(即具有相同标签的节点更有可能被连接)引起,以及如何量化和理解这种优势。
动机:尽管现有的研究认为同质性原则是GNN在节点分类任务上优于神经网络的主要原因,但这种观点只考虑了同类节点之间的区分度,忽视了不同类节点之间的区分度,因此对同质性的理解并不完整。
方法:本文提出了一种基于上下文随机块模型的同质性(CSBM-H)方法,并定义了两种度量标准——概率贝叶斯误差(PBE)和负广义杰弗里斯散度,以量化区分度。通过这些度量标准,我们可视化和分析了图过滤器、节点度分布和类方差如何影响区分度,并研究了同类和不同类区分度的联合效应。此外,我们还发现了普遍存在于图形数据集中的中等同质性陷阱。
效果:实验表明,无论同质性水平如何,GNN在真实任务中的优势确实与同类和不同类区分度密切相关。基于这一观察结果,我们提出了一种新的基于假设检验的性能度量标准,该标准是非线性的、基于特征的,并能为GNN的优势提供统计阈值。实验表明,这种新的度量标准在揭示图形感知模式在合成和基准现实世界数据集上的优势和劣势方面,比现有的同质性度量标准更有效。
Sampling weights of deep neural networks
Erik Lien Bolager Iryna Burak Chinmay Datar Qing Sun Felix Dietrich
研究问题:本文旨在提出一种结合概率分布和高效采样算法的方法,用于训练全连接神经网络的权重和偏置。
动机:在监督学习中,无需迭代优化或计算内部网络参数的梯度,就可以得到一个训练好的网络。
方法:基于随机特征模型的思想进行采样,使用输入和输出训练数据来采样浅层和深层网络,并证明采样的网络是万能逼近器。
效果:实验结果表明,采样的网络可以达到与迭代训练相当的准确性,但构建速度要快几个数量级。测试案例包括OpenML的分类基准、采样神经操作符表示函数空间的映射以及使用知名架构的迁移学习。
Towards Label Position Bias in Graph Neural Networks
Haoyu Han Xiaorui Liu Feng Shi MohamadAli Torkamani Charu C. Aggarwal Jiliang Tang
研究问题:本文旨在解决图神经网络(GNNs)在半监督节点分类任务中存在的各种偏见,特别是标签位置偏见。
动机:最近的研究发现,图神经网络存在多种源于节点特征和图拓扑的偏见,其中一种新的偏见——标签位置偏见,即靠近已标记节点的节点表现更好。
方法:我们提出了一种新的优化框架,用于学习无标签位置偏见的图结构,可以应用于现有的图神经网络。我们还引入了一个新的度量标准——标签邻近度得分,以量化这种偏见,并发现它与性能差异密切相关。
效果:实验结果表明,我们提出的方法不仅优于基线方法,而且显著减轻了图神经网络中的标签位置偏见问题。
Norm-based Generalization Bounds for Sparse Neural Networks
Tomer Galanti Mengjia Xu Liane Galanti Tomaso Poggio
研究问题:本文旨在为稀疏ReLU神经网络(包括卷积神经网络)推导基于范数的泛化界限。
动机:现有的泛化界限通常只考虑与卷积层相关的Toeplitz矩阵的范数,而忽视了神经网络架构的稀疏结构和卷积滤波器的范数。
方法:通过考虑神经网络架构的稀疏结构和卷积滤波器的范数,为稀疏ReLU神经网络(包括卷积神经网络)推导出新的基于范数的泛化界限。
效果:理论证明,这些新界限比标准的基于范数的泛化界限更紧;在各种简单分类问题上,它们能提供相对紧密的泛化估计。这显示了目标函数和模型架构的稀疏性在深度学习的成功中起着关键作用。
A General Framework for Robust G-Invariance in G-Equivariant Networks
Sophia Sanborn Nina Miolane
研究问题:如何实现群等变卷积神经网络($G$-CNNs)中的稳健组不变性。
动机:目前常用的不变映射如最大值函数是不完整的,它们同时移除了群和信号结构。而完全的不变映射只移除了由于群操作引起的变化,保留了所有关于信号结构的信息。
方法:提出了一种称为$G$-三相关($G$-TC)层的通用方法,利用群论中的三元相关性理论,这是一种唯一的、最低阶的完全多项式不变映射。
效果:实验表明,该方法增强了$G$-CNN的鲁棒性,能有效抵抗基于不变性的对抗攻击,并在分类准确率上超过了标准的Max $G$-Pooling在$G$-CNN架构中的表现。
Transformers are uninterpretable with myopic methods: a case study with bounded Dyck grammars
Kaiyue Wen Yuchen Li Bingbin Liu Andrej Risteski
研究问题:本文旨在通过理论结果和对合成数据的仔细控制实验,对只关注模型个别部分的方法进行批判性分析。
动机:Transformer的可解释性旨在通过检查模型的各个部分(如权重矩阵或注意力模式)来理解学习到的算法。
方法:在理论上,我们证明了解决此任务的模型集满足源自形式语言思想的结构特性(泵引理)。我们使用这种特性来证明最优解集具有丰富的定性特征;具体来说,单层的注意力模式可以是“几乎随机化的”,同时保持网络的功能。我们还通过大量实验表明,这些构造不仅仅是理论上的人工产物:即使对模型结构施加严格的限制,也可以通过标准训练达到截然不同的解决方案。因此,基于检查Transformer中单个头部或权重矩阵的可解释性声明可能是误导性的。
效果:实验结果表明,这种方法可以有效地揭示Transformer模型的内在结构和工作原理,为理解和改进Transformer模型提供了新的视角和方法。
A Neural Collapse Perspective on Feature Evolution in Graph Neural Networks
Vignesh Kothapalli Tom Tirer Joan Bruna
研究问题:本文旨在探索图神经网络(GNNs)中图拓扑和特征演变之间的关系,特别是在节点分类任务中。
动机:尽管图神经网络在图结构数据的分类任务上越来越受欢迎,但GNN中图拓扑和特征演变的相互作用尚未得到充分理解。
方法:通过实证研究和理论分析,研究了节点分类任务中的特征演变,以社团检测为例,探讨了“神经崩溃”(NC)现象。
效果:研究发现,即使在零训练误差点之后,深度分类器的训练也会出现NC现象,即深层特征的类内变异性降低,类均值对某些对称结构的对齐度增加。同时,理论研究发现,即使是“乐观”的数学模型也需要图满足严格的结构条件才能具有精确崩溃的最小化器。此外,通过对该模型的梯度动态的研究,为观察到的部分崩溃提供了理由。最后,通过对比层间和层内特征变异性的演化行为,进一步揭示了GNNs在节点分类任务中的特征演变特性。
A graphon-signal analysis of graph neural networks
Ron Levie
研究问题:如何对消息传递图神经网络(MPNNs)进行分析,特别是在输入空间为非欧几里得的情况下。
动机:由于MPNN的输入空间是任意大小和拓扑结构的图,因此其泛化等性质相对于欧几里得神经网络来说理解较少。作者认为过去研究中的一个重要缺失部分是缺乏有意义的图信号相似性度量,这使得MPNN的输入空间缺乏规则结构。
方法:作者提出了一种称为graphon-signal cut距离的相似性度量,使得所有图信号成为稠密子集--graphon-signal空间的一个紧致度量空间中的组成部分。如果两个确定性的图信号在cut距离上接近,那么它们看起来就像是从同一随机图信号模型中采样出来的。
效果:作者证明了MPNN在graphon-signal度量空间上是Lipschitz连续函数。然后给出了这一结果的两个应用:1) MPNN的泛化边界;2) MPNN对图信号子采样的稳定性。这些结果适用于任何足够规则的MPNN和任何图信号分布,使得这种分析具有相当的普遍性。
GEQ: Gaussian Kernel Inspired Equilibrium Models
Mingjie Li Yisen Wang Zhouchen Lin
研究问题:尽管优化诱导的深度平衡模型(OptEqs)在输出和底层隐藏优化问题之间建立了联系,但其性能以及相关作品的性能仍然不够好,特别是与深度网络相比。
动机:导致这种性能限制的一个关键因素是这些模型使用线性内核来提取特征。
方法:我们提出了一种新的方法,通过用一种能直接捕获输入数据中非线性特征依赖性的新函数替换其线性内核来解决此问题。受经典机器学习算法的启发,我们引入高斯核作为替代函数,然后提出我们的新平衡模型,即GEQ。
效果:通过利用高斯核,GEQ可以有效地提取输入特征中嵌入的非线性信息,超越原始OptEqs的性能。此外,GEQ可以被视为具有无限宽度和深度的加权连接神经网络。GEQ还具有良好的理论性质和改进的整体性能。此外,我们的GEQ在面对各种样本时表现出更强的稳定性。我们通过一系列全面实验进一步证实了GEQ的有效性和稳定性。
Implicit Convolutional Kernels for Steerable CNNs
Maksim Zhdanov Nico Hoffmann Gabriele Cesa
研究问题:如何构建一个对原点保留的群$G$(如反射和旋转)等变的神经网络,使其能够进行平移和变换?
动机:目前的等变卷积神经网络依赖于标准卷积和$G$-steerable核,但这种方法只适用于特定的群$G$,无法推广到其他对称变换。
方法:我们提出使用多层感知器(MLPs)来参数化$G$-steerable核,通过隐式神经表示来实现Steerable CNNs,并可以推广到任何可以构建$G$-等变MLP的群$G$。
效果:我们在多个任务上证明了该方法的有效性,包括N体模拟、点云分类和分子性质预测。
Sequential Memory with Temporal Predictive Coding
Mufeng Tang Helen Barron Rafal Bogacz
研究问题:本文旨在解决大脑中序列记忆的计算机制问题。
动机:受到神经科学理论和预测编码在静态记忆任务中的应用成功的启发,提出了一种新的基于预测编码的序列记忆模型。
方法:提出了一种名为“时间预测编码”(tPC)的新模型,通过分析研究发现,tPC可以看作是具有隐式统计白化过程的经典不对称霍普菲尔德网络(AHN),从而在结构化输入的序列记忆任务中实现更稳定的表现。
效果:实验结果表明,tPC模型能够准确地记住和检索序列输入,其表现与神经科学的行为观察和理论相一致,强化了其生物学意义。
FourierGNN: Rethinking Multivariate Time Series Forecasting from a Pure Graph Perspective
Kun Yi Qi Zhang Wei Fan Hui He Liang Hu Pengyang Wang Ning An Longbing Cao Zhendong Niu
研究问题:多变量时间序列预测在许多行业中都显示出了重要性,但目前的最先进的基于图研究问题:多变量时间序列预测在许多行业中都显示出了重要性,但目前的最先进的基于图神经网络的预测方法需要同时使用图网络(如GCN)和时间网络(如LSTM)来捕获系列间(空间)动态和系列内(时间)依赖性,这对手工设计的模型提出了额外的负担。
动机:目前的方法将空间和时间建模分开,这自然违反了现实世界中统一的时空相互依赖性,从而大大阻碍了预测性能。为了克服这些问题,我们探索了一个直接应用图网络的新方向,并从纯图的角度重新思考了MTS预测。
方法:我们首先定义了一种新的数据结构——超变数图,它将每个序列值(无论变量或时间戳如何)视为一个图节点,并将滑动窗口表示为时空全连接图。这种观点将时空动态统一起来,并将经典的MTS预测重新定义为对超变数图的预测。然后,我们提出了一种新的架构——傅立叶图神经网络(FourierGNN),通过堆叠我们提出的傅立叶图运算符(FGO)在傅立叶空间中执行矩阵乘法。
效果:傅立叶GNN具有足够的表现力,并且实现的复杂度更低,可以有效地完成预测任务。此外,我们的理论研究揭示了FGO与时间域中的图卷积等价,进一步验证了傅立叶GNN的有效性。我们在七个数据集上的大量实验表明,与最先进的方法相比,我们的方法具有更高的效率和更少的参数。
Low Tensor Rank Learning of Neural Dynamics
Arthur Pellegrino N Alex Cayco Gajic Angus Chadwick
研究问题:如何理解学习过程中的突触连接集体演变,特别是在循环神经网络中。
动机:最近的研究表明,任务训练的循环神经网络(RNN)的权重矩阵通常是低秩的,但这种低秩结构如何在学习过程中展开尚不清楚。
方法:通过在一项运动学习任务中,对不同等级的RNN进行大规模神经记录,我们调查了学习过程中形成的3-tensor的秩。
效果:我们发现,推断出的权重是低张量秩的,因此在整个学习过程中都在一个固定的低维子空间内演化。此外,我们还在被训练解决同一任务的RNN上验证了低张量秩学习的观察结果。最后,我们提出了一组数学结果,这些结果限制了梯度下降学习动态的矩阵和张量的秩,表明在被训练解决低维任务的RNN中,低张量秩的权重会自然出现。总的来说,我们的发现为理解生物和人工神经网络在学习过程中群体连接的演变提供了见解,并能够从大规模的神经记录中反向工程出学习引起的循环动力学变化。
Three Iterations of (d − 1)-WL Test Distinguish Non Isometric Clouds of d-dimensional Points
Valentino delle Rose Alexander Kozachinskiy Cristobal Rojas Mircea Petrache Pablo Barcelo
研究问题:Weisfeiler-Lehman (WL)测试对于检查图形同构性的基本迭代算法,本研究探讨了该测试在欧几里得空间中的点云数据上何时是完整的。
动机:由于最近机器学习在三维对象数据集中的应用发展,我们研究了当WL测试对于由完全距离图表示的欧几里得点云是完整时的情况。
方法:通过完全距离图表示的欧几里得点云进行WL测试,并进行了多次迭代,以确定其是否能够区分任何任意的点云。
效果:研究发现,对于$dge 2$的任何维度,$(d-1)$维的WL测试对于$d$维欧几里得空间中的点云是完整的,只需要进行三次迭代即可。
Frequency-domain MLPs are More Effective Learners in Time Series Forecasting
Kun Yi Qi Zhang Wei Fan Shoujin Wang Pengyang Wang Hui He Ning An Defu Lian Longbing Cao Zhendong Niu
研究问题:本文旨在解决时间序列预测中存在的问题,如基于RNNs、GNNs或Transformers的复杂架构和基于MLPs的方法的信息瓶颈。
动机:尽管现有的文献设计了许多复杂的基于RNNs、GNNs或Transformers的架构,但另一种基于多层感知器(MLPs)的方法由于其简单的结构、低复杂度和优越的性能而被提出。然而,大多数基于MLP的时间序列预测方法受到点到点的映射和信息瓶颈的限制,这在很大程度上阻碍了预测性能。
方法:为了克服这个问题,我们探索了一种新的方向,即在频率域应用MLP进行时间序列预测。我们研究了频率域MLP的学习模式,并发现了两个有利于预测的内在特性:(i)全局视图:频率谱使MLP能够对信号拥有完整的视图,更容易学习全局依赖性;(ii)能量压缩:频率域MLP集中在具有紧凑信号能量的频率组件的关键部分。然后,我们提出了FreTS,这是一个简单而有效的架构,建立在频率域MLP的基础上进行时间序列预测。
效果:我们在13个真实世界基准上进行了广泛的实验(包括7个短期预测基准和6个长期预测基准),结果表明,我们的模型始终优于最先进的方法。代码可以在以下仓库中找到:https://github.com/aikunyi/FreTS。
Stochastic Optimal Control for Collective Variable Free Sampling of Molecular Transition Paths
Lars Holdijk Yuanqi Du Ferry Hooft Priyank Jaini Bernd Ensing Max Welling
研究问题:本文旨在解决在分子系统中两个给定亚稳态之间的转换路径采样问题,例如折叠和展开的蛋白质或化学反应的产物和反应物。
动机:由于高能垒的存在,这些状态之间的转换路径不太可能通过标准的分子动力学模拟进行采样。传统的增加转换概率的方法依赖于基于集体变量(CVs)的偏置势,但选择合适的CVs需要化学直觉,因此传统方法并不总是适用于更大的系统。
方法:我们提出了一种名为PIPS的机器学习方法,该方法不需要依赖CVs。我们展示了这个问题、薛定谔桥问题和随机最优控制与神经网络策略之间的形式关系。
效果:与传统的非机器学习方法不同,我们的方法成功地为丙氨酸二肽以及更大的聚脯氨酸和Chignolin蛋白质生成了低能转换。
A Fractional Graph Laplacian Approach to Oversmoothing
Sohir Maskey Raffaele Paolino Aras Bacho Gitta Kutyniok
研究问题:图神经网络在捕获图中长程依赖关系时,由于过度平滑问题而表现不佳。
动机:解决现有图神经网络在处理有向图时过度平滑的问题。
方法:通过引入有向对称归一化拉普拉斯和分数图拉普拉斯神经网络ODEs,扩展了狄利克雷能量的概念,以描述非局部动态并传播信息。
效果:实验证明该方法能有效传播远距离节点的信息,同时降低长距离跳跃的概率,并在各种有向和无向真实世界图中表现出良好的灵活性。
Structure of universal formulas
Dmitry Yarotsky
研究问题:本文旨在分析具有高表达能力的模型的基本结构元素,并探讨其全局近似性与无限VC维度之间的关系。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:通过引入一系列复杂性递增的功能族,建立了一个连接全局近似性属性到较弱的无限VC维度属性的表达能力等级。同时,证明了一些分类结果。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Noether Embedding: Efficient Learning of Temporal Regularities
Chi Gao Zidong Zhou Luping Shi
研究问题:如何有效地检测和编码事件中的时序规律(TRs)?
动机:现有的事件嵌入方法无法有效地解码TR的有效性,且不能满足效率要求。
方法:开发了Noether Embedding(NE),这是第一个具有事件嵌入的有效TR学习器。NE具有时间-翻译对称性,可以降低每个TR有效性的计算,实现数据高效的TR形成和恒定时间复杂度的时间高效TR检索。
效果:在ICEWS14、ICEWS18和GDELT数据集上进行评估,NE比经典嵌入实现了大约两倍的F1分数,对于查询TR间隔提供了十倍以上的置信度分数。此外,NE在社会事件预测、个人决策和记忆受限的场景中展示了潜力。
An Optimization-based Approach To Node Role Discovery in Networks: Approximating Equitable Partitions
Michael Scholkemper Michael T Schaub
研究问题:如何根据网络的结构角色对复杂网络的节点进行划分,以识别网络的基本构建模块。
动机:类似于社区检测,通过划分网络节点的角色可以简化网络连接的描述,为各种网络分析和图挖掘任务提供基础。
方法:基于图同构测试、Weisfeiler-Leman算法和公平分区等思想,提出了节点角色的定义和两个相关的优化问题(成本函数)。
效果:通过一个新的“角色注入分区基准”验证了该方法的有效性,该基准可以通过随机赋予网络节点不同角色来生成网络模型。
The Tunnel Effect: Building Data Representations in Deep Neural Networks
Wojciech Masarczyk Mateusz Ostaszewski Ehsan Imani Razvan Pascanu Piotr Miłoś Tomasz Trzcinski
研究问题:本文旨在探索深度神经网络在有监督图像分类任务中的数据表示特性。
动机:现有的深度神经网络虽然在各种任务上表现出色,但其内部数据表示的机制尚不清楚。
方法:通过实证研究,作者发现深度神经网络的训练过程可以划分为两个阶段,即初始层创建线性可分表示,后续层(被称为“隧道”)压缩这些表示并对总体性能影响最小。
效果:隧道的存在影响了模型的分布外泛化能力,并对其持续学习的影响进行了讨论。
Transformer as a hippocampal memory consolidation model based on NMDAR-inspired nonlinearity
Dong-Kyum Kim Jea Kwon Meeyoung Cha C. Justin Lee
研究问题:本文旨在探讨如何通过模拟NMDAR动态来设计一种新的非线性激活函数,以增强Transformer模型的长期记忆功能。
动机:最近的研究发现深度学习模型与海马体有相似之处,特别是其对学习和记忆的处理方式。受此启发,我们提出一种模仿NMDAR动态的新型非线性激活函数。
方法:我们设计了一个导航任务来评估这两种记忆功能,并操纵激活函数(即模仿NMDAR的Mg2+门控)以干扰长期记忆过程。
效果:实验结果表明,变换器的前馈网络层中存在类似位置细胞的功能和参考记忆,并且非线性驱动这些过程。我们的发现揭示了NMDAR-like非线性性在建立变换器架构与海马体空间表示之间的显著相似性方面的作用。
Taming Local Effects in Graph-based Spatiotemporal Forecasting
Andrea Cini Ivan Marisca Daniele Zambon Cesare Alippi
研究问题:本文旨在理解图基时空预测中全局性和局部性的相互作用,同时提出一种理论框架,以合理化在这种架构中包含可训练的节点嵌入的做法。
动机:尽管基于图的结构在计算和数据效率方面优于拟合一组局部模型,但依赖于单个全局模型可能是一个限制,当一些时间序列是由不同的时空随机过程生成时。
方法:我们赋予可训练的节点嵌入的角色是摊销学习专门的组件。此外,嵌入允许1)有效地结合共享的消息传递层与节点特定的参数的优点,2)有效地将学习到的模型转移到新的节点集。
效果:实证证据支持,我们为每个时间序列的动态专门化图基模型提供了见解和指导原则,并展示了这方面如何在整个预测过程中发挥关键作用。
On permutation symmetries in Bayesian neural network posteriors: a variational perspective
Simone Rossi Ankit Singh Thomas Hannagan
研究问题:神经网络中梯度优化的难以捉摸的性质与其损失景观几何形状有关,这尚未得到充分理解。
动机:最近的研究表明,一旦考虑到保持网络计算不变的权重置换,梯度下降的局部解决方案之间实际上没有损失障碍。这对于贝叶斯神经网络(BNNs)中的近似推理提出了问题,我们对此感兴趣。
方法:我们首先将边缘化损失障碍和解决方案插值的正式化扩展到BNNs,然后提出一种匹配算法来搜索线性连接的解决方案。这是通过相对于置换矩阵对两个独立的近似贝叶斯解决方案的分布进行对齐来实现的。
效果:我们在各种架构和数据集上进行实验,发现线性连接的解决方案的边缘化损失障碍几乎为零。
Theoretical Analysis of the Inductive Biases in Deep Convolutional Networks
Zihao Wang Lei Wu
研究问题:本文旨在理论分析卷积神经网络(CNNs)的归纳偏置。
动机:探讨CNNs的通用性,即逼近任何连续函数的能力,并理解深度、权重共享和局部性在网络学习过程中的作用。
方法:通过增加网络深度时结合多通道和下采样的方法,证明深度CNN只需要$\widetilde{\mathcal{O}}(\log^2d)$的样本就能实现通用性,其中$d$是输入维度。同时,通过比较CNNs、局部连接网络(LCNs)和全连接网络(FCNs)在简单回归任务上的表现,分析权重共享和局部性的关键作用。
效果:实验结果表明,深度CNN能有效地捕获长范围的稀疏相关性,且只需$\widetilde{\mathcal{O}}(\log^2d)$的样本。此外,权重共享和局部性在学习过程中打破不同的对称性,对网络性能有重要影响。
Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets
Arthur da Cunha Francesco D'Amore Emanuele Natale
研究问题:本文旨在解决随机初始化的神经网络中可能存在未经训练就表现良好的子网络的问题,并研究问题:本文旨在解决随机初始化的神经网络中可能存在未经训练就表现良好的子网络的问题,并探索结构化剪枝在强彩票假设(SLTH)中的应用。
动机:尽管非结构化剪枝在这个问题上得到了广泛的研究,但其结构化的对应物——可以带来显著的计算和内存效率提升——却基本上未被探索。这主要是由于用于形式化分析SLTH的基础数学工具的限制。
方法:本文利用最近在多维随机子集和问题概括方面的进展,获得了一个能够处理结构化剪枝中产生的随机依赖关系的变体。我们将这一结果应用于证明,对于一类随机卷积神经网络,存在可以近似任何足够小的网络的结构化子网络。
效果:这一结果为结构化剪枝提供了第一个亚指数级围绕SLTH的界限,为进一步研究该假设开辟了新的途径,并对深度学习中的过参数化作用有了更深的理解。
The geometry of hidden representations of large transformer models
Lucrezia Valeriani Diego Doimo Francesca Cuturello Alessandro Laio Alessio ansuini Alberto Cazzaniga
研究问题:大型转换器在不同数据类型(如蛋白质序列、图像和文本)的自监督数据分析中的强大架构。
动机:通过分析大型转换器的几何和统计特性,以及在各层之间的变化,寻找其语义结构的演变规律。
方法:通过对内在维度(ID)和邻居组成进行分析,发现训练蛋白质语言任务和图像重建任务的转换器在表示上的演变具有相似性。
效果:研究发现,数据集的语义信息在模型末端的第一个峰值处得到更好的表达,这一现象可以在许多不同数据集上观察到。因此,提出了一种无需监督即可确定最大化语义内容的层的明确策略:对应于ID轮廓相对最小值的中间层表示更适合下游学习任务。
Diffusion Representation for Asymmetric Kernels via Magnetic Transform
Mingzhen He FAN He Ruikai Yang Xiaolin Huang
研究问题:如何有效地处理具有非对称邻近性的数据?
动机:现有的非线性降维技术,如扩散映射(DM),只能使用对称核,限制了其在有向图、营养网络等实际场景中的应用。
方法:提出了一种名为MagDM的扩散表示框架,利用磁性变换将非对称矩阵转换为厄米特矩阵,同时保留了扩散距离并避免了扩散过程中的发散问题。
效果:在三个合成数据集和两个营养网络中验证了MagDM处理具有非对称邻近性数据的有效性和鲁棒性。
Mode Connectivity in Auction Design
Christoph Hertrich Yixin Tao László A. Végh
研究问题:本文旨在解决拍卖设计这一算法博弈论中的基本问题,并探讨神经网络在经济优化问题上的应用。
动机:尽管拍卖设计问题在简单设置下就已十分困难,但最近的可微经济学研究表明,神经网络可以有效地学习已知的最优拍卖机制并发现有趣的新机制。
方法:本文以RochetNet网络为例,证明了其满足模式连通性,即局部最优解之间存在一条简单的分段线性路径,使得路径上的每个解决方案几乎与两个局部最优解之一一样好。
效果:这是首次在可微经济学背景下进行此类分析,为神经网络直接用于解决非凸优化问题提供了理论支持。
A General Framework for Equivariant Neural Networks on Reductive Lie Groups
Ilyes Batatia Mario Geiger Jose M Munoz Tess Smidt Lior Silberman Christoph Ortner
研究问题:本文旨在提出一种通用的等变神经网络架构,能够尊重任何约化李群的有限维表示的对称性。
动机:约化李群在高能物理、量子力学、量子色动力学、分子动力学、计算机视觉和成像等多个科学领域中扮演着重要角色。然而,现有的神经网络架构往往无法充分利用这些群的对称性。
方法:本文提出了一种等变神经网络架构,该架构可以推广到任何与约化李群动作等变的数据集上。我们还介绍了lie-nn软件库,它提供了开发和实现这种通用G等变神经网络所需的所有工具。
效果:通过将该方法应用于顶夸克衰变标签(洛伦兹群)和形状识别(正交群)任务,证明了我们的方法的通用性和性能。
Curvature Filtrations for Graph Generative Model Evaluation
Joshua Southern Jeremy Wayland Michael M. Bronstein Bastian Rieck
研究问题:如何有效地利用图的结构特性进行图生成模型评估。
动机:现有的图生成模型评估方法无法充分理解图在分布层面的不同,需要寻找更有效的图特性进行评估。
方法:结合图曲率描述符和新兴的拓扑数据分析方法,获取用于评估图生成模型的稳健、表现力强的描述符。
效果:通过实验证明,该方法能有效提升图生成模型的评估效果。
How do Minimum-Norm Shallow Denoisers Look in Function Space?
Chen Zeno Greg Ongie Yaniv Blumenfeld Nir Weinberger Daniel Soudry
研究问题:本文旨在从理论上理解神经网络去噪器的成功。
动机:尽管神经网络去噪器在许多常见任务中起着关键作用,但其成功的原因尚不清楚。
方法:通过理论研究,对浅层ReLU神经网络去噪器的功能进行表征,特别是在插值(即零训练损失)和最小表示成本(即最小的L2范数权重)的常见理论设置下。
效果:对于单变量数据,我们得到了一个封闭形式的神经网络去噪器函数,并发现它对清洁数据点具有收缩性,并在低噪声水平下证明其比经验MMSE估计器具有更好的泛化能力。对于多变量数据,我们在各种几何假设下找到了封闭形式的神经网络去噪器函数,并通过实验验证了这种对齐现象。
GeoTMI: Predicting Quantum Chemical Property with Easy-to-Obtain Geometry via Positional Denoising
Hyeonsu Kim Jeheon Woo SEONGHWAN KIM Seokhyun Moon Jun Hyeong Kim Woo Youn Kim
研究问题:现有的图神经网络需要通过高级量子力学计算获取3D几何信息,这在实践中是不可行的,限制了其在实际问题中的应用。
动机:为了解决这个问题,我们提出了一种新的训练框架GeoTMI,它使用去噪过程来准确地预测使用易获得的几何结构(正确几何结构的损坏版本,如从低级计算中获得的)的属性。
方法:GeoTMI的目标是最大化三个变量之间的互信息:正确的和损坏的几何结构和属性。同时,GeoTMI还明确更新损坏的输入以接近正确的几何结构,这在GNN层中更有效地进行去噪。
效果:我们在三个预测任务中使用3D GNNs进行了实验,包括分子性质、化学反应性质和异质催化系统中的弛豫能。结果显示,GeoTMI在所有任务上的精度都有一致的提高,证明了其有效性和鲁棒性。
GUST: Combinatorial Generalization by Unsupervised Grouping with Neuronal Coherence
Hao Zheng Hui Lin Rong Zhao
研究问题:如何将感知信息动态地分组为结构化实体,以理解组合性世界。
动机:成功的分组是由人脑中的神经一致性所指示的,但目前的人工神经网络在分组能力和组合泛化方面仍面临挑战。
方法:我们引入了GUST(通过尖峰定时网络进行无监督分组)模型,这是一种具有生物约束的迭代网络架构,可以使得网络偏向于反映其尖峰活动时间结构中分组信息的动态状态。
效果:我们在合成数据集上评估和分析了该模型。有趣的是,这种分离能力可以直接从重叠的刺激中学习得到,并使用简洁的无监督目标。模型有两个学习阶段,从粗略地感知全局特征到额外捕获局部特征。此外,学习到的符号状构建模块可以系统地组合,以生物合理的方式表示新的场景。
Dynamics Generalisation in Reinforcement Learning via Adaptive Context-Aware Policies
Michael Beukman Devon Jarvis Richard Klein Steven James Benjamin Rosman
研究问题:强化学习在实际应用中受到限制,因为许多方法无法适应不熟悉的环境。
动机:当环境对代理的行动的反应改变时,需要让代理的行为依赖于外部状态信息和反映环境反应的相关上下文信息。
方法:提出了一种名为“决策适配器”的神经网络架构,该架构生成适配器模块的权重,并使代理的行为依赖于上下文信息。
效果:实验证明,决策适配器在几种环境中都能实现优越的泛化性能,并且比几种替代方法更能抵抗无关干扰变量。
Mind the spikes: Benign overfitting of kernels and neural networks in fixed dimension
Moritz Haas David Holzmüller Ulrike von Luxburg Ingo Steinwart
研究问题:本文探讨了过参数化神经网络在训练误差接近零时出现的良性过拟合现象,即估计量在统计上一致,即使它们只是插值了噪声训练数据。
动机:虽然对于一些学习方法来说,固定维度下的良性过拟合已经得到证实,但目前的文献表明,对于典型的核方法和宽神经网络的回归,良性过拟合需要在高维设置中进行,其中维度随着样本大小而增长。
方法:本文证明,估计量的平滑性而非维度是关键:只有当估计量的导数足够大时,才可能发生良性过拟合。我们将现有的不一致结果推广到非插值模型和更多的内核,以证明在固定维度下,只有当估计量的导数适中时,才不可能发生良性过拟合。
效果:我们使用神经切线核将我们的结果转化为宽神经网络。我们的实验验证了这样的神经网络,尽管出现过拟合,但即使在低维数据集上也能很好地泛化。
Convolutional Neural Operators for robust and accurate learning of PDEs
Bogdan Raonic Roberto Molinaro Tim De Ryck Tobias Rohner Francesca Bartolucci Rima Alaifari Siddhartha Mishra Emmanuel de Bezenac
研究问题:本文旨在探讨卷积神经网络(CNN)在处理偏微分方程(PDE)的学习解算子方面的应用。
动机:尽管卷积神经网络在传统机器学习中非常成功,但它们被认为在函数空间上不一致,因此在学习PDE的解算子方面基本被忽视。
方法:本文提出了一种新的CNN适应方法,证明CNN确实能够处理作为输入和输出的函数。由此产生的架构被称为卷积神经网络操作符(CNO),其设计目的是即使在计算机上以离散形式实现时,也能保持其潜在的连续特性。
效果:通过一系列基准测试,包括具有多尺度解决方案的多样化PDE集,CNOs显著优于基线,为稳健准确的操作符学习开辟了新途径。
Investigating how ReLU-networks encode symmetries
Georg Bökman Fredrik Kahl
研究问题:本研究旨在探讨网络的等变性质是否意味着所有层都具有等变性。
动机:在神经网络中,许多数据对称性可以通过组等变性质来描述,而编码组等变性质的最常见方法是构建具有组等变性的线性层。
方法:本研究通过理论分析和实验验证,探讨了网络的等变性是否意味着所有层都具有等变性。
效果:研究发现,在某些情况下,等变性确实意味着层状等变性,但这并不是普遍情况。然而,我们推测,经过训练具有等变性的CNN将表现出层状等变性,并解释了这一猜想是如何弱于Entezari等人最近的置换猜想的。通过对VGG-nets在CIFAR10上的定量实验和对ResNets在ImageNet上的定性实验,我们支持并说明了我们的理论研究结果。这些实验不仅有助于理解如何在ReLU网络中编码组等变性,而且为我们提供了一个新的视角来看待Entezari等人的置换猜想,因为我们发现,通常将一个网络与其自身经过组变换的版本合并比将两个不同的网络合并要容易得多。
WalkLM: A Uniform Language Model Fine-tuning Framework for Attributed Graph Embedding
Yanchao Tan Zihao Zhou Hang Lv Weiming Liu Carl Yang
研究问题:如何同时实现复杂属性和灵活结构的真实世界图的深度联合建模,并获得不限于特定下游预测的无监督通用图表示。
动机:现有的图神经网络(GNNs)需要针对特定的下游预测进行充分的训练才能获得强大的性能,而现实世界的图往往与多种类型的节点甚至链接的复杂属性相关联,难以统一建模。
方法:本研究采用一种与GNNs截然不同的方法,通过自然融合语言模型(LMs)和随机游走(RWs),直接从带属性的RWs中构造大致有意义的文本序列,然后使用RW-based文本序列微调LM并提取嵌入向量,该向量同时包含属性语义和图结构。
效果:在多个真实世界的带属性图数据集上,对不同的下游预测任务评估学习到的节点嵌入,观察到了显著优于一系列最先进的无监督节点嵌入方法的效果。
ScaleLong: Towards More Stable Training of Diffusion Model via Scaling Network Long Skip Connection
Zhongzhan Huang Pan Zhou Shuicheng YAN Liang Lin
研究问题:UNet在扩散模型中训练不稳定,LSC系数的缩放可以缓解这个问题,但对其理论理解和性能改进仍不清楚。
动机:解决UNet在扩散模型中训练不稳定的问题,提高其训练稳定性和性能。
方法:理论上证明了LSC系数对UNet前向和后向传播的稳定性和鲁棒性有重要影响,并提出了有效的LSC系数缩放框架ScaleLong。
效果:实验结果表明,该方法能有效稳定UNet的训练,并在不同使用UNet或UViT作为主干的网络中加速约1.5倍的训练。
Laplacian Canonization: A Minimalist Approach to Sign and Basis Invariant Spectral Embedding
George Ma Yifei Wang Yisen Wang
研究问题:如何提高图嵌入技术的表达能力,同时保持图的符号和基不变性。
动机:现有的图嵌入技术在提高表达能力的同时,会丧失图的符号和基不变性,限制了其在图数据上的效果。
方法:提出拉普拉斯规范化(LC)方法,通过直接寻找特征向量的规范方向来解决这一问题。
效果:实验证明,该方法可以成功规范化超过90%的特征向量,且在真实世界基准数据集上的表现优于现有方法,同时计算开销最小。
Neural Oscillators are Universal
Samuel Lanthaler T. Konstantin Rusch Siddhartha Mishra
研究问题:本文旨在介绍一种抽象的神经网络振荡器类,并证明其具有通用性,即可以近似任何连续和因果的操作符映射。
动机:耦合振子正越来越多地用作机器学习(ML)架构的基础,例如在序列建模、图表示学习和模拟ML设备中使用的物理神经网络中。
方法:通过引入一个抽象的神经网络振荡器类,并证明了这种网络振荡器的通用性,即它们可以在所需的精度下近似任何连续和因果的操作符映射。
效果:该通用性结果为基于振荡器的ML系统提供了理论依据。
Spiking PointNet: Spiking Neural Networks for Point Clouds
Dayong Ren Zhe Ma Yuanpei Chen Weihang Peng Xiaode Liu Yuhan Zhang Yufei Guo
研究问题:本文旨在解决深度学习在3D点云识别中的应用难题,探索脉冲神经网络(SNNs)是否能够被推广到3D识别。
动机:尽管脉冲神经网络(SNNs)在2D视觉识别中表现出了极高的能源效率并吸引了大量研究关注,但其在3D识别中的应用仍然是一个未充分开发的领域。
方法:本文提出了Spiking PointNet,这是第一个用于点云上的深度脉冲学习模型。我们发现了限制SNNs在点云中应用的两个主要障碍:一是SNNs的内在优化障碍,这阻碍了大时间步长的大脉冲模型的训练;二是PointNet的高昂的内存和计算成本,这使得训练大脉冲点模型变得不现实。为了同时解决这两个问题,我们提出了一种少训练但多学习的Spiking PointNet范式,并通过理论证明和深入的实验分析进行了验证。
效果:我们在ModelNet10和ModelNet40上进行了各种实验,证明了Spiking PointNet的有效性。值得注意的是,我们的Spiking PointNet甚至能超越其ANN对应模型的性能,这在SNN领域是罕见的,为后续的研究提供了可能的方向。此外,Spiking PointNet在训练阶段显示出了显著的速度提升和存储节省。
Neural Graph Generation from Graph Statistics
Kiarash Zahirnia Yaochen Hu Mark Coates Oliver Schulte
研究问题:如何从聚合的图统计信息中学习深度图生成模型,同时保护局部隐私?
动机:传统的图生成模型通常从图邻接矩阵进行学习,而隐私研究者提出从图统计信息中学习以保护隐私。
方法:开发了一种用于训练深度图生成模型的架构,该模型在匹配统计信息的同时保持局部差分隐私保证。
效果:实验结果表明,当只从图统计信息中学习时,我们的深度图生成模型生成的图比传统图生成模型更真实,且在保护局部隐私方面具有竞争力。
Re-Think and Re-Design Graph Neural Networks in Spaces of Continuous Graph Diffusion Functionals
Tingting Dan Jiaqi Ding Ziquan Wei Shahar Z Kovalsky Minjeong Kim Won Hwa Kim Guorong Wu
研究问题:如何设计新的归纳偏置以捕捉图中的长期依赖和全局模式,解决图神经网络(GNN)在局部性假设下的局限性。
动机:目前的GNN模型由于局部性假设的限制,无法有效捕捉到图中的长期依赖和全局模式。受经典Brachistochrone问题的启发,我们寻求设计一种新的归纳偏置,通过变分分析提供一个通用框架。
方法:我们提出了一个两阶段映射框架,将离散的GNN模型与连续的扩散泛函联系起来,允许我们在连续域中设计特定于应用的目标函数,并从数学上保证设计的深度离散模型。我们还引入了总变差(TV)来对齐图扩散模式和社区拓扑中的全局信息,并设计了一个新的选择性机制来解决模型深度和过平滑之间的权衡问题。
效果:实验结果表明,我们的新GNN模型在Cora、Citeseer和Pubmed等图学习基准测试中取得了最先进的性能。
Wide Neural Networks as Gaussian Processes: Lessons from Deep Equilibrium Models
Tianxiang Gao Xiaokai Huo Hailiang Liu Hongyang Gao
研究问题:本文旨在对深度平衡模型(DEQ)进行深入研究,这是一种具有跨层共享权重矩阵的无限深度神经网络。
动机:现有的结果主要关注浅层或有限深度的网络,因此需要对无限深度的神经网络,如神经常微分方程(ODEs)和深度平衡模型(DEQs)进行全面分析。
方法:通过分析深度平衡模型(DEQ),我们发现当DEQ层的宽度趋近于无穷大时,它会收敛到一个高斯过程,建立了所谓的神经网络和高斯过程(NNGP)对应关系。
效果:我们的研究为研究DEQ的训练和泛化奠定了基础,为该领域的未来研究铺平了道路。
Approximately Equivariant Graph Networks
Ningyuan Teresa Huang Ron Levie Soledad Villar
研究问题:本文探讨了图神经网络(GNNs)的对称性问题,以及如何通过图的粗化来形式化近似对称性。
动机:虽然GNNs和CNNs都存在对称性,但两者的本质不同。CNNs的平移等变性对应于固定域对图像信号的对称性(也称为活跃对称性),而GNNs的任何排列都会同时作用于图信号和图域(有时被称为被动对称性)。因此,作者关注GNNs的活跃对称性,并考虑在固定图上支持信号的学习设置。
方法:作者通过图的粗化来放松对称性的概念,形式化近似对称性。他们提出了一个偏差-方差公式,该公式根据所选的对称群量化了表现力损失和学习估计器规则性增益之间的权衡。
效果:作者在图像修复、交通流预测和人体姿态估计等任务上进行了广泛的实验,结果表明,选择适当大的群比图自同构体好,但比排列群小可以获得最佳的泛化性能。
Demystifying Structural Disparity in Graph Neural Networks: Can One Size Fit All?
Haitao Mao Zhikai Chen Wei Jin Haoyu Han Yao Ma Tong Zhao Neil Shah Jiliang Tang
研究问题:现有的图神经网络(GNNs)在处理同质和某些异质图中的结构模式时,对于不同结构模式的节点,如异质图中的同质节点,其性能表现存在显著差异。
动机:大多数现实世界的同质和异质图都是由同质和异质结构模式的节点混合组成的,表现出结构性的差异。然而,关于GNN在处理具有不同结构模式的节点上的性能表现的研究仍然非常有限。
方法:本研究通过理论分析和实证研究,对GNN在处理具有不同结构模式的节点上的性能表现进行了深入探讨,并提出了一种新的非i.i.d PAC-Bayesian泛化边界,揭示了性能差异的原因。
效果:实验结果表明,GNN在同质图中的同质节点和异质图中的异质节点上的表现优秀,但在相反的节点集上表现不佳。此外,我们还发现深层GNN的效果以及图分布外问题中被忽视的分布偏移因素,并提出了相应的新场景。
Improving neural network representations using human similarity judgments
Lukas Muttenthaler Lorenz Linhardt Jonas Dippel Robert A. Vandermeulen Katherine Hermann Andrew Kyle Lampinen Simon Kornblith
研究问题:本文旨在探索监督神经网络表示的全局结构对人类相似性判断的影响,并提出了一种新的方法来对齐表示的全局结构同时保留其局部结构。
动机:目前的深度神经网络在许多计算机视觉任务上已经达到了人类水平的性能,但是用于训练这些网络的目标只强制要求相似的图像在表示空间中的位置相近,并没有直接约束结果空间的全局结构。
方法:通过线性地将表示的全局结构与人类的相似性判断对齐,探索监督这种全局结构的影响。当发现简单的方法会导致局部表示结构的巨大变化从而损害下游性能时,提出了一种新颖的方法来对齐表示的全局结构同时保留其局部结构。
效果:实验结果表明,人类视觉表示是以一种便于从少量示例中学习的方式进行全局组织的。将这种全局结构纳入神经网络表示中可以显著提高各种少样本学习和异常检测任务的准确性。
CAT-Walk: Inductive Hypergraph Learning via Set Walks
Ali Behrouz Farnoosh Hashemi Sadaf Sadeghian Margo Seltzer
研究问题:如何有效地对超图进行表示学习,以提取在社会网络分析、神经科学、金融等真实世界问题中至关重要的高阶交互模式。
动机:现有的方法通常只针对特定任务或静态超图设计,缺乏对动态规律的学习和高阶因果关系的提取。
方法:提出CAT-Walk方法,通过引入一种基于集合的自适应和置换不变的池化策略SetMixer以及一种隐藏超边身份的集合匿名化过程,实现了对超图中的时间和结构过程的动态规律的学习。
效果:在10个超图基准数据集上的评估表明,CAT-Walk在归纳和演绎设置下都取得了优秀的时间超边预测性能,并在节点分类任务上与最先进的方法具有竞争力。
Equivariant Flow Matching with Hybrid Probability Transport for 3D Molecule Generation
Yuxuan Song Jingjing Gong Minkai Xu Ziyao Cao Yanyan Lan Stefano Ermon Hao Zhou Wei-Ying Ma
研究问题:如何同时决定3D分子的分类特征(原子类型)和连续特征(原子坐标)。
动机:现有的深度生成模型在生成具有丰富特征的几何形状方面表现出了有效性,但通常存在概率动态不稳定和采样速度低效的问题。
方法:引入几何流匹配,结合等变建模和稳定的概率动态优势。具体来说,我们提出了一种混合概率路径,其中坐标概率路径通过等变最优传输进行正则化,并在不同的模态之间对齐信息。
效果:实验结果表明,该方法在多个分子生成基准测试中始终能取得更好的性能,平均采样速度提高了4.75倍。
The Double-Edged Sword of Implicit Bias: Generalization vs. Robustness in ReLU Networks
Spencer Frei Gal Vardi Peter Bartlett Nathan Srebro
研究问题:本研究探讨了ReLU网络中梯度流的隐含偏见对泛化和对抗鲁棒性的影响。
动机:在数据由簇组成且簇均值之间的相关性较小的情况下,我们发现在两层ReLU网络中,梯度流偏向于泛化良好但易受对抗样本攻击的解决方案。即使网络高度过参数化,我们的结果仍然成立。
方法:通过研究数据由簇组成且簇均值之间的相关性较小的情况,我们分析了ReLU网络中梯度流的隐含偏见对泛化和对抗鲁棒性的影响。
效果:尽管这种设置可能导致有害的过拟合,但我们证明梯度流的隐含偏见可以防止它。然而,这种隐含偏见也会导致非鲁棒解决方案(容易受到小的对抗L2扰动的影响),即使存在适应数据的鲁棒网络。
Does a sparse ReLU network training problem always admit an optimum ?
TUNG QUOC LE Rémi Gribonval Elisa Riccietti
研究问题:优化算法在寻找最优网络参数时,其存在性并非总是被保证,特别是在稀疏ReLU神经网络的上下文中。
动机:深度网络的某些稀疏模式的优化问题并不总是有最优参数,优化算法可能会因此发散。
方法:通过一种新的稀疏ReLU神经网络与其线性对应物之间的拓扑关系,利用实代数几何的现有工具,推导出一种算法来验证给定的稀疏模式是否存在此问题。然后,证明了每个涉及浅层输出维度为一的稀疏ReLU神经网络的具体优化问题都存在全局最优解。
效果:这项分析基于对可实施为稀疏ReLU神经网络的函数空间的两个拓扑性质的研究:最佳逼近性质和一致范数下的闭合性质。这既适用于对应于有限训练集的实际训练的有限域,也适用于更一般的域,如单位立方体。这使我们能够提供给定稀疏模式时存在最优解的条件。这些结果不仅适用于最近关于网络剪枝/稀疏化的工作提出的几种稀疏模式,也适用于经典的密集神经网络,包括现有结果未涵盖的架构。
Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias for Correlated Inputs
Dmitry Chistikov Matthias Englert Ranko Lazic
研究问题:本文旨在证明训练一个单神经元的基本回归任务,通过梯度流从一个小型初始值研究问题:本文旨在证明训练一个单神经元的基本回归任务,通过梯度流从一个小型初始值训练任何宽度的单隐藏层ReLU网络会收敛到零损失,并隐含地倾向于最小化网络参数的等级。
动机:以前的工作主要考虑正交数据集,而我们假设训练点与教师神经元相关,从而补充了这一部分的研究。
方法:通过对每个隐藏神经元在整个训练过程中的动态进行详细的非渐近分析,得出我们的结果。
效果:我们展示了在最小等级插值器网络和最小欧几里得范数插值器网络之间存在一种令人惊讶的区别。最后,我们进行了一系列的数值实验,证实了我们的理论研究结果。
Joint Feature and Differentiable $ k $-NN Graph Learning using Dirichlet Energy
Lei Xu Lei Chen Rong Wang Feiping Nie Xuelong Li
研究问题:本文旨在提出一种基于狄利克雷能量的深度特征选择方法,该方法可以同时进行特征选择和可微分k-NN图学习。
动机:特征选择在机器学习中起着重要作用,提取重要特征并加速学习过程。现有的特征选择方法往往忽视了特征之间的关联性,而基于狄利克雷能量的特征选择方法可以解决这个问题。
方法:我们的方法通过测量特征在图结构上的平滑度来识别重要特征,并促进新图的学习,以反映新特征子空间中的固有结构。我们还采用最优传输理论来解决神经网络中k-NN图学习的非可微分问题。
效果:我们在合成数据集和真实世界数据集上进行了广泛的实验,验证了我们模型的有效性。
Optimizing over trained GNNs via symmetry breaking
Shiqiang Zhang Juan S Campos Christian Wolfgang Feldmann David Walz Frederik Sandfort Miriam Mathea Calvin Tsay Ruth Misener
研究问题:如何优化训练过的图神经网络(GNN)模型,并解决由此产生的约束问题。
动机:图神经网络在处理图形结构数据上具有优势,但其优化过程受到已训练的GNN的限制,且存在由于图同构导致的问题。
方法:提出两种类型的对称性破坏约束,并通过构建图索引算法来保证添加这些约束不会消除所有对称解。同时,针对输入图不是固定的情况,即每条边都是决策变量,开发了两种混合整数优化公式。
效果:通过在分子设计中的应用测试,证明了提出的对称性破坏策略和优化公式的有效性。
Normalization-Equivariant Neural Networks with Application to Image Denoising
Sébastien Herbreteau Emmanuel Moebel Charles Kervrann
研究问题:在许多信息处理系统中,输入的变换(无论是平移还是缩放)都应导致系统响应的相应变化。然而,深度神经网络并不保证这种归一化等变(缩放+平移)属性,这在许多应用中可能是有害的。
动机:为了解决这个问题,我们提出了一种方法来调整现有的神经网络,使归一化等变性通过设计得以实现。
方法:我们的主要观点是,不仅普通的卷积层,而且所有激活函数,包括应用于预激活神经元的元素级的ReLU(修正线性单元),都应该从神经网络中完全移除,并用条件更好的替代方案来替换。为此,我们引入了仿射约束卷积和通道级排序池化层作为替代方案,并证明这两种架构修改在不损失性能的情况下确实保留了归一化等变性。
效果:实验结果表明,除了条件更好外,归一化等变神经网络还提供了更好的噪声水平泛化能力。
Globally injective and bijective neural operators
Takashi Furuya Michael Anthony Puthawala Matti Lassas Maarten V. de Hoop
研究问题:本文探讨了在无限维视角下,网络从函数空间中学习算子的问题,特别是当这些网络学习的算子是单射和满射的情况。
动机:近年来,算子学习引起了极大的关注,其中网络从本质上无穷维的角度学习函数空间之间的算子。本研究旨在探究当这些网络学习的算子是单射和满射时的结果。
方法:首先,通过给出严格的条件,证明了ReLU层与线性神经网络算子结合的情况下,该层是单射的。然后,考虑激活函数是逐点双射的情况,并获得了该层是单射的充分条件。此外,还证明了提供的单射神经网络算子是通用逼近器,并且其有限秩神经网络的实现仍然是单射的。
效果:最后,提高了抽象层次,考虑了当子网络可能是多层且是单射和满射的一般条件,并提供了从“线性化”的精确逆变换。这些结果适用于由本研究中考虑的层形成的子网络,在自然条件下。作者认为这项工作在贝叶斯不确定性量化中有应用,因为单射性可以实现似然估计,而在逆问题中,满射性和单射性分别对应解的存在性和唯一性。
Interpretable Graph Networks Formulate Universal Algebra Conjectures
Francesco Giannini Stefano Fioravanti Oguzhan Keskin Alisia Maria Lupidi Lucie Charlotte Magister Pietro Lio Pietro Barbiero
研究问题:本文旨在探索人工智能在普适代数(UA)中的应用,以解决传统方法难以处理的数学问题。
动机:尽管AI在许多领域都有广泛应用,但在建立现代数学基础之一的普适代数中,其使用仍然未被探索。
方法:本研究首次提出利用AI来研究普适代数的等价方程和拓扑特性。通过构建可解释的图神经网络,我们能够分析这些属性,并生成适用于AI的数据集。
效果:实验结果表明,这种可解释的图网络在预测普适代数属性时具有强大的泛化能力,并能生成简单的解释来验证现有的猜想,甚至能找出可能形成新猜想的子图。
Geometric Algebra Transformer
Johann Brehmer Pim De Haan Sönke Behrends Taco Cohen
研究问题:目前尚无一种适用于各种几何类型的通用架构,能够同时尊重其对称性。
动机:几何数据在物理、化学、机器人学、计算机视觉等多个领域都有涉及,但现有架构无法处理如此广泛的几何类型。
方法:本文介绍了一种名为“几何代数变换器”(GATr)的通用架构,用于处理几何数据。GATr使用射影几何(或克利福德)代数表示输入、输出和隐藏状态,为常见的几何对象及其操作提供了高效的16维向量空间表示。
效果:GATr在从n体建模到大型动脉网格的壁剪应力估计再到机器人运动规划等问题上表现出色,不仅优于非几何基线,还优于具有对称性的基线,无论在误差、数据效率还是可扩展性方面都表现出色。
Is Distance Matrix Enough for Geometric Deep Learning?
Zian Li Xiyuan Wang Yinan Huang Muhan Zhang
研究问题:现有的基于消息传递神经网络的图神经网络(GNN)在处理3D几何图形任务时存在局限性,无法完全捕捉到图中的对称几何结构。
动机:为了解决这一问题,研究者提出了$k$-DisGNNs模型,该模型能够有效地利用距离矩阵中的丰富几何信息。
方法:首先,研究者构造了一系列新的、对称的几何图,这些图即使是考虑所有对的距离,Vanilla DisGNN也无法区分,从而大大扩展了现有的反例族。然后,研究者提出了$k$-DisGNNs模型,该模型可以从几何图中学习高阶几何信息,并统一了一些现有的精心设计的几何模型。
效果:实验结果表明,$k$-DisGNNs在MD17数据集上取得了许多新的最先进的结果。此外,研究者还建立了几何深度学习(GDL)和传统图表示学习(GRL)之间的联系,证明了原本为GRL设计的高表达能力的GNN模型也可以应用于GDL,并且表现令人印象深刻。
Rethinking Tokenizer and Decoder in Masked Graph Modeling for Molecules
Zhiyuan Liu Yaorui Shi An Zhang Enzhi Zhang Kenji Kawaguchi Xiang Wang Tat-Seng Chua
研究问题:本文旨在填补分子图自我监督学习中图掩码建模(Masked Graph Modeling,MGM)的三个关键组成部分——图标记器、图掩码和图自编码器的理解空白。
动机:现有的MGM研究主要关注图掩码和编码器,而对标记器和解码器的理解有限。为了弥补这一差距,作者首先总结了流行的分子标记器,然后探讨了它们作为MGM重建目标的作用。
方法:作者提出了一种新的MGM方法SimSGT,它包括一个基于简单GNN的标记器(SGT)和一个有效的解码策略。通过实验验证,该方法优于现有的分子自我监督学习方法。
效果:实验结果表明,子图级别的标记器和具有重掩码解码的足够表现力的解码器对编码器表示学习有重大影响。
Lovász Principle for Unsupervised Graph Representation Learning
Ziheng Sun Chris Ding Jicong Fan
研究问题:本文旨在利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Understanding the Limitations of Deep Models for Molecular property prediction: Insights and Solutions
Jun Xia Lecheng Zhang Xiao Zhu Yue Liu Zhangyang Gao Bozhen Hu Cheng Tan Jiangbin Zheng Siyuan Li Stan Z. Li
研究问题:深度学习在分子性质预测(MPP)任务中的表现不如传统模型,尽管该任务在人工智能驱动的药物发现(AIDD)流程中至关重要。
动机:揭示深度学习在MPP任务中的不足,并找出原因以改进其性能。
方法:对12个代表性模型(包括3个非深度学习模型和9个深度学习模型)在15个分子数据集上进行基准测试,并进行深入的实证研究。
效果:通过特征映射方法改进深度学习模型,使其在大多数MoleculeNet数据集上超越非深度学习模型,并在与COVID-19相关的前沿数据集和活动悬崖数据集上进一步验证了其有效性。
Graph Mixture of Experts: Learning on Large-Scale Graphs with Explicit Diversity Modeling
Haotao Wang Ziyu Jiang Yuning You Yan Han Gaowen Liu Jayanth Srinivasa Ramana Rao Kompella Zhangyang Wang
研究问题:如何提高图神经网络(GNNs)对各种训练图结构的泛化能力,同时避免计算成本的激增和训练难度的问题。
动机:现实世界的图结构多样,节点和边的类型各异。为了增强GNNs的泛化能力,通常需要通过图增强技术和在更广泛的图上进行大规模预训练来增强训练图结构。如何在保持多样性的同时避免计算成本激增和训练难度是关键。
方法:本研究将专家混合(MoE)的概念引入到GNNs中,提出了图混合专家(GMoE)模型。该模型使图中的节点能够动态地、自适应地选择更具一般性的信息聚合专家。这些专家被训练来捕获不同的图结构子组,并整合不同跳数的信息,跳数较大的专家专门收集较长距离的信息。
效果:通过在OGB基准的一系列实验,包括图、节点和链接预测任务,验证了GMoE的有效性。与非MoE基线相比,它在ogbg-molhiv和ogbg-molbbbp上的ROC-AUC分别提高了1.81%和1.40%。代码已公开发布在https://github.com/VITA-Group/Graph-Mixture-of-Experts。
Analyzing Generalization of Neural Networks through Loss Path Kernels
Yilan Chen Wei Huang Hao Wang Charlotte Loh Akash Srivastava Lam M. Nguyen Tsui-Wei Weng
研究问题:本文旨在研究使用(随机)梯度流训练的神经网络的泛化能力。
动机:随着深度神经网络在现实应用中的广泛使用,确保其适应新、未见过的数据的能力变得至关重要。
方法:通过提出一种新的称为损失路径核的新核,将梯度流的损失动力学与一般内核机建立新的连接。这种核通过评估沿梯度流确定的路径上的损失梯度之间的一致性来测量两个数据点之间的相似性。基于这种联系,我们推导出一个新的适用于一般神经网络架构的泛化上限。
效果:我们的结果表明,新的泛化上限是紧的,并且与真实的泛化误差强烈相关。我们将我们的结果应用于指导神经架构搜索(NAS),并通过数值实验证明,与最先进的NAS算法相比,具有较好的性能。
Transformed Low-Rank Parameterization Can Help Robust Generalization for Tensor Neural Networks
Andong Wang Chao Li Mingyuan Bai Zhong Jin Guoxu Zhou Qibin Zhao
研究问题:本文旨在解决多通道学习中t-NNs(具有t-product层的神经网络)泛化能力的理论分析问题。
动机:尽管t-NNs在实践中取得了成功,但其泛化能力的理论研究尚未得到充分探讨。
方法:通过推导标准和对抗性设置下t-NNs的泛化误差上界,来填补这一空白。
效果:研究发现,压缩为精确转换低秩参数化的t-NNs可以获得比非压缩模型更紧的对抗性泛化边界。此外,该分析表明,在特定条件下,经过对抗性训练和梯度流,高度过参数化的ReLU激活t-NNs可以隐式地被正则化为转换低秩参数化。
Deep learning with kernels through RKHM and the Perron-Frobenius operator
Yuka Hashimoto Masahiro Ikeda Hachem Kadri
研究问题:本文旨在提出一种深度学习框架——深度RKHM,用于处理核方法。
动机:通过结合再生核希尔伯特空间(RKHS)和$C^*$-代数,以及与函数复合相关的Perron-Frobenius算子,提出了深度RKHM。
方法:利用$C^*$-代数,我们推导出一种新的Rademacher泛化界,并从Perron-Frobenius算子的角度对良性过拟合进行了理论解释。
效果:我们的理论研究为设计和分析深度核方法提供了新的视角,证明了$C^*$-代数是适合内核的深度学习的工具,能够利用操作数的乘积结构,并与卷积神经网络建立清晰的联系。
A General Theory of Correct, Incorrect, and Extrinsic Equivariance
Dian Wang Xupeng Zhu Jung Yeon Park Mingxi Jia Guanang Su Robert Platt Robin Walters
研究问题:尽管等变机器学习在许多任务上已被证明有效,但其成功研究问题:尽管等变机器学习在许多任务上已被证明有效,但其成功在很大程度上依赖于假设真实函数在整个域上与等变神经网络中的对称性相匹配。
动机:等变学习文献中缺失的部分是对仅在域部分存在对称性的等变网络的分析。
方法:我们提出了一种针对这种情况的一般理论,为正确、错误和外在等变性提出了点状定义,使我们能够连续量化函数显示的每种类型的等变性的程度。
效果:我们证明了在分类或回归设置中,具有部分错误对称性的不变或等变网络的错误下界。我们还分析了外在等变性可能带来的有害影响。实验在三种不同环境中验证了这些结果。
Beyond Geometry: Comparing the Temporal Structure of Computation in Neural Circuits with Dynamical Similarity Analysis
Mitchell Ostrow Adam Joseph Eisen Leo Kozachkov Ila R Fiete
研究问题:如何判断两个神经网络是否对特定计算使用了相同的内部过程?
动机:这个问题对于神经科学和机器学习的多个子领域都很重要,包括神经AI、机制可解释性和脑机接口。
方法:我们引入了一种名为动态相似性分析(DSA)的新相似度度量方法,该方法在系统的动态层面进行比较。该方法包含两个部分:首先,利用最新的数据驱动动力系统理论,学习一个高维线性系统,以准确捕获原始非线性动力学的核心特征;然后,通过一种新颖的扩展普罗克拉斯分析方法来比较经过这种嵌入的不同系统,该方法考虑了向量场在正交变换下的变换方式。
效果:在四个案例研究中,我们发现这种方法可以区分共轭和非共轭循环神经网络(RNNs),而几何方法则无法做到这一点。此外,我们还发现,该方法可以在无监督的方式下区分学习规则。
Primal-Attention: Self-attention through Asymmetric Kernel SVD in Primal Representation
Yingyi Chen Qinghua Tao Francesco Tonin Johan Suykens
研究问题:如何理解和改善Transformer中的自注意力机制。
动机:现有的工作将对称核方法应用于非对称的自注意力,导致理论分析和数值实现之间存在显著差距。
方法:通过非对称核奇异值分解(KSVD)来表示和优化自注意力,利用深度层中通常观察到的自注意力的低秩特性。
效果:实验结果表明,我们的方法在优化自注意力时具有最先进的性能和效率,同时验证了该方法的巨大潜力。
On the spectral bias of two-layer linear networks
Aditya Vardhan Varre Maria-Luiza Vladarean Loucas Pillaud-Vivien Nicolas Flammarion
研究问题:本文研究了在平方损失下,使用梯度流训练具有线性激活的两层全连接网络的行为。
动机:我们发现优化过程对参数存在一种依赖于初始规模大小的隐含偏见。
方法:我们通过梯度流获取特定初始化形状的损失最小化器,并对其进行变分表征。我们还展示了一个跟踪权重矩阵奇异值动态并描述其时间演化的隐藏镜像流。
效果:我们的发现揭示了在线性神经网络的隐藏层中,小尺度初始化方案倾向于具有低秩结构。我们的数值实验支持了这些发现。
Extending the Design Space of Graph Neural Networks by Rethinking Folklore Weisfeiler-Lehman
Jiarui Feng Lecheng Kong Hao Liu Dacheng Tao Fuhai Li Muhan Zhang Yixin Chen
研究问题:如何提高图神经网络的表达能力,同时解决现有方法中存在的空间复杂度高和设计空间刚性的问题。
动机:现有的图神经网络表达能力受限,且存在空间复杂度高和设计空间刚性的问题。
方法:提出一种扩展的Folklore WL(k-WL/FWL)方法,通过将任意等变集作为邻居,扩大了设计空间,并证明其具有实现现有模型的等效表达能力。进一步提出了一个实用的、理论可靠的实例Neighborhood^2-FWL(N^2-FWL),它只需要O(n^2)的空间复杂度,但能编码许多子结构。
效果:实验结果表明,N^2-GNN在ZINC-Subset和ZINC-Full任务上取得了破纪录的结果,比之前的最好结果提高了10.6%和40.9%。此外,N^2-GNN在BREC数据集上也取得了新的最优结果,超过了所有现有的高表达能力的GNN方法。
MAG-GNN: Reinforcement Learning Boosted Graph Neural Network
Lecheng Kong Jiarui Feng Hao Liu Dacheng Tao Yixin Chen Muhan Zhang
研究问题:如何提高图神经网络(GNNs)的结构编码能力,同时保持其效率?
动机:尽管子图GNNs能够通过使用子图信息来提高GNNs的表达能力并取得了巨大的成功,但这种方法通过枚举所有可能的子图牺牲了GNNs的效率。
方法:我们分析了完全子图枚举的必要性,并表明一个模型可以通过考虑子图的一个小集达到相当的表达能力。然后我们将确定最优子集的问题形式化为一个组合优化问题,并提出磁性图神经网络(MAG-GNN),一种强化学习(RL)增强的GNN,来解决这个问题。
效果:我们在许多数据集上进行了大量的实验,结果表明MAG-GNN达到了与最先进的方法竞争的性能,甚至超过了许多子图GNNs。我们还证明MAG-GNN有效地减少了子图GNNs的运行时间。
Simultaneous embedding of multiple attractor manifolds in a recurrent neural network using constrained gradient optimization
Haggai Agmon Yoram Burak
研究问题:本研究旨在探讨如何通过调整突触权重来减少连续变量在工作记忆中的存储受到的有害干扰。
动机:当前的研究表明,当多个连续吸引子嵌入单个循环神经网络时,会引发有害的干扰,导致记忆质量下降。
方法:本研究提出通过调整突触权重来改善状态稳定性,从而减轻这种有害干扰。突触权重的调整是通过一个损失函数来实现的,该函数量化了每个嵌入吸引子流形的能量景观的粗糙度。
效果:实验结果表明,通过最小化这个损失函数,可以显著提高状态的稳定性,而不会影响其容量,从而有效地减轻了连续变量在工作记忆中的存储受到的有害干扰。
Fine-grained Expressivity of Graph Neural Networks
Jan Böker Ron Levie Ningyuan Teresa Huang Soledad Villar Christopher Morris
研究问题:本文旨在解决现有图神经网络(MPNNs)表达能力分析中的问题,即$1$-WL测试的二分性无法准确衡量两个给定图的相似度。
动机:现有的图神经网络表达能力分析主要依赖于组合技术如$1$-WL测试,但其二分性无法提供两个图的相似度信息。
方法:通过将$1$-WL和MPNNs扩展到图论上的连续形式——graphons,提出了一种连续的$1$-WL测试,可以准确刻画MPNNs在graphons上的表达能力。
效果:实验结果表明,随机初始化的MPNNs无需训练就具有与训练过的MPNNs相当的性能。此外,根据保持图距离的能力评估了不同的MPNN架构,证明了我们的连续$1$-WL测试在理解MPNNs的表达能力方面的重要性。
Adversarial Training for Graph Neural Networks: Pitfalls, Solutions, and New Directions
Lukas Gosch Simon Geisler Daniel Sturm Bertrand Charpentier Daniel Zügner Stephan Günnemann
研究问题:尽管对抗性训练在图像领域取得了成功,但它尚未成为图神经网络(GNN)对抗图形结构扰动的有效防御。
动机:为了解决对抗性训练的问题,我们展示了并克服了先前工作中采用的图学习设置的基本理论和实践限制;我们发现基于可学习的图扩散的灵活GNN能够适应对抗性扰动,而学习到的消息传递方案是自然可解释的。
方法:我们引入了第一种针对结构扰动的攻击,该攻击同时针对多个节点,能够处理全局(图级别)和局部(节点级别)的约束。
效果:包括这些贡献在内,我们证明了对抗性训练是对抗结构扰动的最佳防御手段。
New Complexity-Theoretic Frontiers of Tractability for Neural Network Training
Cornelius Brand Robert Ganian Mathis Rocton
研究问题:尽管神经网络在现代机器学习研究中起着基础性的作用,但我们对优化训练神经网络的计算复杂性的理解仍然有限,即使处理的是最简单的激活函数。
动机:尽管最近有一些结果为线性和ReLU激活函数的问题建立了更紧的下界,但在识别新的多项式时间可处理的网络架构方面进展甚微。
方法:本文为训练线性和ReLU激活的神经网络到最优性获得了新的算法上界,这些上界将这些问题的可处理性推向了超越先前状态的边界。
效果:实验结果表明,这些新获得的上界推动了这些问题的可处理性超越了先前的状态。
Metis: Understanding and Enhancing In-Network Regular Expressions
Zhengxin Zhang Yucheng Huang Guanglin Duan Qing Li Dan Zhao Yong Jiang Lianbo Ma Xi Xiao Hengyang Xu
研究问题:如何将正则表达式(REs)和神经网络(NNs)结合,以提升网络入侵检测的准确性和效率。
动机:虽然REs能提供一种一次性解决许多网络任务的方法,但其完全依赖于专家知识,无法利用标记数据提高准确性。而神经网络虽然可以从丰富的标记数据中学习,但在冷启动场景下表现不佳,且在网络设备上的部署过于复杂。
方法:本文提出了Metis框架,通过将REs转换为字节级的循环神经网络(BRNNs),无需训练即可实现高精度和高吞吐量。当有丰富的标记数据时,可以通过训练进一步提高BRNN的性能。此外,设计了一种半监督的知识蒸馏方法,将BRNNs转化为可以部署在网络设备上的池化软随机森林(PSRFs)。
效果:实验结果表明,Metis比原始的REs和其他基线更准确,当部署在网络设备上时,可以实现更高的吞吐量。
On skip connections and normalisation layers in deep optimisation
Lachlan Ewen MacDonald Jack Valmadre Hemanth Saratchandran Simon Lucey
研究问题:本文旨在为深度神经网络的梯度优化提供一个通用的理论框架,以研究其广泛应用的架构选择,包括批量归一化、权重归一化和跳跃连接。
动机:现有的理论框架无法完全解释归一化层和跳跃连接在深层神经网络训练中的作用。
方法:本文提出了一个新的理论框架,通过分析各层的性质来确定多层损失景观的曲率和规律性,从而阐明归一化层和跳跃连接在全局化这些性质中的作用。
效果:实验结果表明,该框架不仅可以证明一类深度神经网络可以使用梯度下降法训练到全局最优解,而且还发现了跳跃连接加速训练的新机制,并通过ResNets在MNIST、CIFAR10、CIFAR100和ImageNet上进行了验证。
Self-supervised Graph Neural Networks via Low-Rank Decomposition
Liang Yang Runjie Shi Qiuliang Zhang Bingxin Niu Zhen Wang Xiaochun Cao Chuan Wang
研究问题:本文旨在解决预训练语言模型对结构化知识的利用不足,以及现有图神经网络在处理网络异构性和缺乏标签信息时的问题。
动机:目前的预训练语言模型和图神经网络在处理知识图谱等结构化信息时存在局限,且在无标签信息的情况下处理网络异构性困难。
方法:本文提出了一种基于低秩分解的图神经网络(LRD-GNN),通过将属性矩阵进行低秩分解,使得到的表示矩阵具有低秩特性,从而保留节点的局部特性并捕捉长距离关系。同时,还提出了基于低秩张量分解的图神经网络(LRD-GNN-Tensor),通过构建节点属性张量并执行低秩张量分解,以进一步捕捉原始网络和选定相似网络之间的长距离关系。
效果:实验结果表明,LRD-GNN在各种任务上表现出优越的性能和鲁棒性。
A Recurrent Neural Circuit Mechanism of Temporal-scaling Equivariant Representation
Junfeng Zuo Xiao Liu Ying Nian Wu Si Wu Wenhao Zhang
研究问题:本文旨在探讨大脑中循环电路的时间感知的数学原理。
动机:时间感知在我们的日常生活中至关重要,而时间感知的一个重要特征是时间尺度(TS),即在不同速度下生成时间序列的能力。然而,大脑中循环电路的时间尺度背后的数学原理还不清楚。为了揭示这一点,本研究从李群的角度对时间尺度进行了研究。
方法:我们提出了一种经典的非线性循环电路动力学模型,被建模为一个连续的吸引子网络,其神经元群体反应嵌入了一个时间尺度不变的时间序列。此外,我们发现时间尺度组操作符可以通过输入到循环电路的控制输入来明确表示,其中输入增益决定了时间尺度因子(组参数),而控制输入和网络状态之间的空间偏移产生了生成器。循环电路中的神经元反应也与实验结果一致。
效果:我们展示了循环电路可以驱动前馈电路生成具有不同时间尺度的复杂时间序列,即使在负时间尺度(“时间反转”)的情况下也是如此。我们的工作首次将抽象的时间尺度组和具体的神经电路动力学联系起来。
Efficient Uncertainty Quantification and Reduction for Over-Parameterized Neural Networks
Ziyi Huang Henry Lam Haofeng Zhang
研究问题:如何准确量化深度学习模型的不确定性,并降低其对数据和训练过程噪声的影响。
动机:深度学习模型的不确定性不仅来自数据,也来自训练过程,这给可靠性评估和模型增强带来了挑战。
方法:基于神经切线核理论,创建了具有统计保证的方案,通过一个辅助网络来主要“表征”和“消除”过参数化神经网络的不确定性。
效果:该方法能有效减少程序性不确定性,并且只需使用一个训练好的网络,无需多次重新训练网络。结合适当的轻量级计算重采样方法,可以构建具有渐近精确覆盖范围的置信区间。
Spectral Evolution and Invariance in Linear-width Neural Networks
Zhichao Wang Andrew William Engel Anand Sarwate Ioana Dumitriu Tony Chiang
研究问题:本研究探讨了线性宽度前馈神经网络的频谱特性,样本大小与网络宽度呈渐进正比。
动机:我们发现在高维空间中,使用梯度下降法进行小常数学习率训练时,权重的频谱是不变的。我们对此观察提供了理论依据,并证明了对于共轭和神经切线核,其主体频谱都是不变的。
方法:我们通过实证研究和理论证明来展示这一特性,同时我们也展示了在使用小学习率的随机梯度下降法训练时,有类似的特性出现。
效果:当学习率较大时,会出现一个与训练数据结构对齐的异常值。我们还发现,在进行适应性梯度训练后(此时测试错误较低且特征学习出现),权重和核矩阵都表现出重尾行为。我们通过不同的训练策略从两层神经网络中展示了不同的频谱特性(如不变的主体、尖峰和重尾分布),并将它们与特征学习相关联。当我们用真实世界的数据训练传统的神经网络时,也会出现类似的现象。我们得出结论,监测训练过程中频谱的演变是理解训练动态和特征学习的关键步骤。
Tanimoto Random Features for Scalable Molecular Machine Learning
Austin Tripp Sergio Bacallado Sukriti Singh José Miguel Hernández-Lobato
研究问题:如何有效地利用随机特征近似法加速Tanimoto系数的计算,并扩展其到实值向量。
动机:目前缺乏适用于Tanimoto核的随机特征近似方法,且该核在大规模数据集上无法有效扩展。
方法:提出两种新型的随机特征来加速Tanimoto核的计算,并将其扩展到实值向量。
效果:实验证明这些随机特征能够有效地近似真实世界的数据集中的Tanimoto系数,对于分子性质预测和优化任务具有实用价值。
Complex-valued Neurons Can Learn More but Slower than Real-valued Neurons via Gradient Descent
Jin-Hui Wu Shao-Qun Zhang Yuan Jiang Zhi-Hua Zhou
研究问题:本文旨在理论探讨复值神经网络在处理复杂任务时,相比实值神经网络是否具有更好的表示和性能。
动机:尽管实证研究表明复值神经网络在一些复杂任务上可能优于实值神经网络,但理论上这种情况何时以及在何种程度上发生仍然未知。
方法:通过比较梯度下降下实值神经元和复值神经元的学习能力,我们迈出了这一步。结果显示,复值神经元可以有效地学习由任何实值或复值神经元表达的函数,收敛速度分别为$O(t^{-3})$和$O(t^{-1})$,而宽度有限的两层实值神经网络无法学习单个非退化的复值神经元。
效果:我们证明,复值神经元学习实值神经元的速度为$Omega(t^{-3})$,比使用具有常数$c$的实值神经元学习一个实值神经元的$O(\mathrm{e}^{-ct})$速度慢得多。我们在更一般的情况下通过模拟实验进一步验证并扩展了这些结果。
Deconstructing Data Reconstruction: Multiclass, Weight Decay and General Losses
Gon Buzaglo Niv Haim Gilad Yehudai Gal Vardi Yakir Oz Yaniv Nikankin michal Irani
研究问题:目前对神经网络内部工作机制的理解仍处于初级阶段,记忆训练数据是一个活跃的研究领域。
动机:Haim等人在2022年提出了一种从多层感知器二分类器重构训练样本的方案,有效地证明了大部分训练样本被编码在这种网络的参数中。
方法:我们扩展了他们的发现,包括从多类和卷积神经网络进行重构。我们推导出一种更通用的重构方案,适用于更广泛的损失函数,如回归损失。此外,我们还研究了导致网络易受此类重构方案影响的各种因素。
效果:有趣的是,我们发现在训练过程中使用权重衰减可以提高重构的数量和质量。另外,我们还考察了神经元数量相对于训练样本数量对可重构性的影响。
Equivariant Spatio-Temporal Attentive Graph Networks to Simulate Physical Dynamics
Liming Wu Zhichao Hou Jirui Yuan Yu Rong Wenbing Huang
研究问题:如何更好地表示和模拟物理系统的动态行为。
动机:现有的等变图神经网络(GNN)方法虽然已经捕捉到了物理学的对称性,但由于忽视了环境中未被观察的动力学导致的非马尔可夫性质,其对物理系统动态行为的模拟效果仍有待提高。
方法:本文将动力学模拟任务重新定义为时空预测任务,通过利用过去一段时间的轨迹来恢复非马尔可夫交互作用。提出了等变时空注意力图网络(ESTAG),这是一种等变的时空GNN版本,用于实现这一目标。在ESTAG的核心,设计了一个新颖的等变离散傅立叶变换(EDFT)来从历史帧中提取周期性模式,然后构建一个等变空间模块(ESM)来完成空间消息传递,以及一个带有前向注意和等变池化的等变时间模块(ETM)来聚合时间信息。
效果:我们在三个真实数据集上评估了我们的模型,这些数据集分别对应于分子级、蛋白质级和宏观级别。实验结果验证了ESTAG相对于典型的时空GNNs和等变GNNs的有效性。
TensorNet: Cartesian Tensor Representations for Efficient Learning of Molecular Potentials
Guillem Simeon Gianni De Fabritiis
研究问题:如何开发高效的机器学习模型来表示分子系统,以支持科学研究。
动机:当前对分子系统的有效表示和处理在科学研究中变得越来越重要。
方法:介绍了一种创新的O(3)等变消息传递神经网络架构TensorNet,该架构利用了笛卡尔张量表示,通过矩阵乘法操作简化了特征混合,并通过将张量分解为旋转群不可约表示,实现了标量、向量和张量的分别处理。
效果:实验表明,与更高阶的球面张量模型相比,TensorNet具有最先进的性能,同时参数数量显著减少。对于小分子势能,甚至只需要一个交互层就可以实现。此外,该模型还可以准确预测势能和力之上的向量和张量分子量,从而大大降低了计算成本。总的来说,TensorNet的框架为设计最先进的等变模型开辟了新空间。
Truly Scale-Equivariant Deep Nets with Fourier Layers
Md Ashiqur Rahman Raymond A. Yeh
研究问题:计算机视觉中,模型需要能够适应图像分辨率的变化,以有效地执行如图像分割等任务,这被称为尺度等变。
动机:尽管最近的一些工作在开发尺度等变的卷积神经网络方面取得了进展,例如通过权重共享和内核调整大小,但这些网络在实践中并不是真正的尺度等变的。具体来说,他们在连续域中制定降采样操作时没有考虑到抗锯齿。
方法:为了解决这个问题,我们直接在离散域中考虑抗锯齿来制定降采样操作。然后,我们提出了一种基于傅立叶层的新颖架构,以实现真正尺度等变深度网络,即绝对零等变误差。
效果:按照先前的工作,我们在MNIST-scale和STL-10数据集上测试了我们的模型。我们的模型在保持零等变误差的同时,实现了有竞争力的分类性能。
Neural Functional Transformers
Allan Zhou Kaien Yang Yiding Jiang Kaylee Burns Winnie Xu Samuel Sokota J Zico Kolter Chelsea Finn
研究问题:如何构建能够处理高维权重空间对象的高效表达性神经网络功能架构。
动机:利用注意力机制定义一组新的排列等变权重空间层,并将其组合成深度等变模型,称为神经功能变压器(NFTs)。
方法:使用注意力机制定义一组新的排列等变权重空间层,并组成深度等变模型NFTs。
效果:在处理前馈MLP和CNN的权重时,NFTs的性能与先前的权重空间方法相当或超过。同时,利用NFTs开发了Inr2Array,这是一种从隐式神经表示(INR)的权重计算排列不变潜在表示的新方法。该方法将INR分类准确率提高了多达+17%。
Permutation Equivariant Neural Functionals
Allan Zhou Kaien Yang Kaylee Burns Adriano Cardace Yiding Jiang Samuel Sokota J Zico Kolter Chelsea Finn
研究问题:设计能够处理其他神经网络的权重或梯度的神经网路,即神经功能网络(NFNs)。
动机:尽管NFNs在许多应用中都有潜力,包括学习优化、处理隐含的神经网络表示、网络编辑和策略评估等,但目前还没有统一的设计原则。
方法:通过对称性的视角来设计神经功能网络,特别是关注由于深层前馈网络中的隐藏层神经元没有内在顺序而产生的置换对称性。提出了一个构建置换等变神经功能网络的框架,其架构将这些对称性编码为归纳偏置。
效果:实验发现,置换等变神经功能网络在一系列需要处理MLPs和CNNs权重的任务上都表现出了良好的效果,如预测分类器的泛化能力、生成"获胜门票"稀疏掩码用于初始化,以及分类或编辑隐含的神经网络表示(INRs)。
Coneheads: Hierarchy Aware Attention
Albert Tseng Tao Yu Toni J.B. Liu Christopher De Sa
研究问题:现有的注意力网络,如transformers,主要依赖点积注意力运算符来计算两点的相似性,但这种方法无法明确地模拟真实世界数据集的复杂结构属性,如数据点之间的层次关系。
动机:为了解决这个问题,我们提出了锥形注意力(cone attention),这是一种基于双曲蕴含锥的点积注意力的替代方法。
方法:锥形注意力通过在由双曲锥定义的层次结构中查找两个点的最低公共祖先的深度来关联两个点,这种方法直观地测量了两个点的发散程度,并给出了一个"层次感知"的相似度分数。
效果:我们在各种模型和任务上测试了锥形注意力,结果显示它在任务级别上的性能超过了点积注意力和其他基线,并且能够以显著更少的参数匹配点积注意力。这些结果说明,锥形注意力是一种有效的捕捉层次关系的注意力计算方法。
Diffusion Probabilistic Models for Structured Node Classification
Hyosoon Jang Seonghyun Park Sangwoo Mo Sungsoo Ahn
研究问题:本文研究了在图中进行结构化节点分类的问题,特别是在部分标签的图上预测未知标签时如何考虑标签之间的依赖关系。
动机:现有的方法在处理部分标签图时,没有充分利用已知标签的信息来预测未知标签。为了解决这个问题,作者提出了一种新的框架,利用扩散概率模型进行结构化节点分类(DPM-SNC)。
方法:该框架的核心是DPM-SNC的卓越能力,包括学习具有表达能力的反向扩散过程的标签联合分布,以及利用流形约束采样在已知标签条件下进行预测。由于DPMs缺乏对部分标签数据的培训算法,作者设计了一种新的训练算法来应用DPMs,最大化一个新的变分下界。
效果:作者通过理论分析表明,DPMs可以通过增强基于图神经网络的表达能力来提高节点分类的性能。在各种场景中,包括部分标签图的转导设置、归纳设置和未标记图,作者广泛验证了DPM-SNC的优越性。
Riemannian Residual Neural Networks
Isay Katsman Eric Ming Chen Sidhanth Holalkere Anna Asch Aaron Lou Ser-Nam Lim Christopher De Sa
研究问题:如何将残差神经网络(ResNet)扩展到一般的黎曼流形上,以实现对图的层次结构或自然科学中遇到的流形值数据的更好学习。
动机:最近在几何深度学习中引入的各种神经网络需要在黎曼流形上操作数据,而扩展欧几里得网络是困难的,并且只对少数几个流形进行了扩展。
方法:我们检查了残差神经网络(ResNet),并展示了如何以几何原理的方式将其扩展到一般的黎曼流形上。
效果:与现有的设计用于学习超平面和对称正定矩阵流形的流形神经网络相比,我们的黎曼ResNet在相关测试指标和训练动态方面都优于这两种类型的网络。
Latent Field Discovery in Interacting Dynamical Systems with Neural Fields
Miltiadis Kofinas Erik J Bekkers Naveen Shankar Nagaraja Efstratios Gavves
研究问题:本研究旨在解决现有模型在处理系统动态时,忽视了底层场效应的问题。
动机:目前的模型通常假设系统在真空中演化,而忽略了底层的场效应对系统动态的影响。
方法:本研究提出了一种新的模型,通过学习潜在的力场来发现和推断这些底层的场效应。我们使用等变图网络来建模局部对象交互,并将它们与神经场结合在一个集成了场力的新颖的图网络中。
效果:实验结果表明,我们可以准确地发现带电粒子设置、交通场景和重力n体问题中的底层场,并有效地利用它们来学习和预测系统的轨迹。
Two Sides of The Same Coin: Bridging Deep Equilibrium Models and Neural ODEs via Homotopy Continuation
Shutong Ding Tianyu Cui Jingya Wang Ye Shi
研究问题:本文旨在建立深度平衡模型(DEQs)和神经常微分方程(Neural ODEs)之间的联系,并基于此提出一种新的隐式模型HomoODE。
动机:尽管深度平衡模型和神经常微分方程都是优秀的隐式模型,但它们源自不同的数学公式。受同伦延续法的启发,作者们建立了这两种模型之间的联系,并发现它们实际上是同一事物的两面。
方法:基于这种联系,作者们提出了一种新的隐式模型HomoODE,它从深度平衡模型继承了高精度的特性,从神经常微分方程继承了稳定性的特性。与深度平衡模型通过牛顿方法在正向传播中显式求解均衡点问题不同,HomoODE使用修改后的神经常微分方程通过同伦延续法隐式地求解均衡点问题。此外,作者们还为HomoODE开发了一种带共享可学习初始点的加速方法。
效果:在几个图像分类任务上的全面实验表明,HomoODE在准确性和内存消耗方面都超过了现有的隐式模型。
Enhancing Adaptive History Reserving by Spiking Convolutional Block Attention Module in Recurrent Neural Networks
Qi Xu Yuyuan Gao Jiangrong Shen Yaxin Li Xuming Ran Huajin Tang Gang Pan
研究问题:本文旨在开发一种结合空间和时间特征的脉冲神经网络模型,以处理动态视觉传感器收集的时空模式数据。
动机:尽管卷积脉冲神经网络在时空模式数据处理上取得了显著效果,但它们忽视了与连续时间点相关的时序特征。
方法:本文提出了一种嵌入先进脉冲卷积块注意力模块(SCBAM)的循环脉冲神经网络(RSNN)模型,以结合时空模式的空间和时间特征。
效果:实验结果表明,提出的RSNN-SCBAM模型能更有效地利用空间和时间维度的历史信息,且比其他模型具有更高的精度。
On Class Distributions Induced by Nearest Neighbor Graphs for Node Classification of Tabular Data
Federico Errica
研究问题:本文旨在理解在缺失图结构的情况下,最近邻图对经典机器学习问题的转换以及图表示学习方法的效果。
动机:最近的研究发现,这些人工结构通常反映了同质性假设,被认为是深度图网络性能的关键因素。然而,这些信念被最新结果揭示出来,因此作者引入了一个理论框架来理解最近邻图的好处。
方法:作者形式化地分析了交叉类邻居相似性(CCNS),用于评估结构在实践中的有用性,特别是在最近邻图的背景下。此外,作者还研究了深度图网络在k-NN图上诱导的类别可分性。
效果:定量实验表明,在完全监督的情况下,使用k-NN图与无结构的基线相比没有带来任何好处。定性分析表明,作者的框架能够很好地估计CCNS,并暗示在完全监督的情况下,k-NN图从未对此类分类任务有用,因此主张研究其他图构建技术与深度图网络的结合。
Neural (Tangent Kernel) Collapse
Mariia Seleznova Dana Weitzner Raja Giryes Gitta Kutyniok Hung-Hsu Chou
研究问题:本文旨在通过利用神经网络切线核(NTK)和神经坍塌(NC)现象,理解深度神经网络(DNNs)在训练过程中的演变以及训练良好的分类DNNs最后一层特征中的对称性和结构的出现。
动机:为了解决现有预训练语言模型对丰富结构化知识的利用不足的问题,作者提出了一种增强的语言表示模型ERNIE,该模型能够同时充分利用词汇、句法和知识信息。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,使ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Spectral Invariant Learning for Dynamic Graphs under Distribution Shifts
Zeyang Zhang Xin Wang Ziwei Zhang Zhou Qin Weigao Wen Hui Xue' Haoyang Li Wenwu Zhu
研究问题:动态图神经网络(DyGNNs)在处理动态图中固有的分布偏移问题上存在困难。
动机:现有的DyGNNs在处理分布偏移问题上只关注时间域,无法处理频谱域中的分布偏移。本文首次提出在频谱域中研究动态图上的分布偏移。
方法:提出了Spectral Invariant Learning for Dynamic Graphs under Distribution Shifts (SILD)方法,通过捕获和利用不变和可变的频谱模式来处理动态图上的分布偏移。具体包括设计一个带有傅里叶变换的DyGNN以获取自我图轨迹频谱,将混合的动态图模式转化为分离的频率成分;开发一个解耦的频谱掩码来过滤来自各种频率成分的图动态并发现不变的和可变的频谱模式;最后,提出不变频谱过滤,鼓励模型在分布偏移下依赖不变的模式进行泛化。
效果:在合成和现实世界的动态图数据集上进行的实验结果表明,我们的方法在节点分类和链接预测任务上都具有优越的性能,特别是在处理分布偏移的情况下。
Principled Weight Initialisation for Input-Convex Neural Networks
Pieter-Jan Hoedt Günter Klambauer
研究问题:本文旨在解决输入凸神经网络(ICNNs)的初始权重设定问题,并探索其对学习速度和模型泛化能力的影响。
动机:由于ICNNs的特性,传统的中心化权重初始化策略对其并不适用。因此,需要一种新的、符合其特性的权重初始化方法来提高学习效率和模型性能。
方法:通过研究非负权重下的信号传播理论,提出了一种适用于ICNNs的初始权重设定方法。同时,还发现正确初始化的ICNNs可以不依赖跳跃连接进行训练。
效果:实验证明,这种新的初始权重设定方法能有效加速ICNNs的学习速度,提高模型的泛化能力。此外,该方法在药物发现任务中也表现出良好的应用效果。
Spontaneous symmetry breaking in generative diffusion models
Gabriel Raya Luca Ambrogioni
研究问题:本文旨在探索生成扩散模型的动态特性,并理解其对高维数据生成的影响。
动机:生成扩散模型在高维数据生成中表现出优越性,但其内部动态机制尚未完全明了。
方法:通过理论和实证分析,研究发现生成扩散模型的动态过程存在一个对称性破缺,将其分为两个阶段:中心固定点附近的线性稳态动态和趋向数据流形的吸引子动态。这两个阶段由中心固定点稳定性的变化分隔,而这种不稳定性产生了丰富的生成样本。
效果:基于此发现,作者提出了高斯晚期初始化方案,显著提高了模型性能,并在快速采样器上实现了高达3倍FID的改进,同时增加了样本多样性。这项工作为理解扩散模型的生成动态提供了新的视角,有望带来更高性能和更少偏见的快速采样器。
State-space models with layer-wise nonlinearity are universal approximators with exponential decaying memory
Shida Wang Beichen Xue
研究问题:本文旨在探讨如何通过在状态空间模型中引入逐层非线性激活来提高其学习复杂序列模式的能力。
动机:尽管状态空间模型由于其简单和高效的网络结构而在序列建模中受到欢迎,但由于其在时间方向上缺乏非线性激活,限制了模型的容量。
方法:本文证明了通过堆叠带有逐层非线性激活的状态空间模型,可以近似任何连续的序列到序列的关系。
效果:实验结果表明,加入逐层非线性激活增强了模型学习复杂序列模式的能力。同时,理论和实证结果均表明,状态空间模型并未从根本上解决指数衰减记忆的问题。
On Sparse Modern Hopfield Model
Jerry Yao-Chieh Hu Donglin Yang Dennis Wu Chenwei Xu Bo-Yu Chen Han Liu
研究问题:本文旨在介绍稀疏现代Hopfield模型,作为现代Hopfield模型的稀疏扩展。
动机:与密集型Hopfield模型相比,稀疏现代Hopfield模型具有更好的记忆检索动态性,且其一步近似对应于稀疏注意力机制。
方法:通过使用稀疏熵正则化的凸共轭,从理论上推导出封闭形式的稀疏Hopfield能量。在此基础上,从稀疏能量函数中推导出稀疏记忆检索动态,并证明其一步近似等价于稀疏结构的注意力。
效果:实验结果表明,在许多情况下,稀疏Hopfield模型优于密集型Hopfield模型。此外,我们还证明了稀疏现代Hopfield模型保持了其密集型对应物的鲁棒理论性质,包括快速固定点收敛和指数内存容量。
Training Your Image Restoration Network Better with Random Weight Network as Optimization Function
Man Zhou Naishan Zheng Yuan Xu Chun-Le Guo Chongyi Li
研究问题:本文旨在调查新的优化函数以提高图像恢复性能。
动机:尽管深度学习在图像恢复方面取得了显著进展,但优化函数如L_1和L_2仍然是实际使用的。
方法:我们提出使用“随机权重网络作为训练更好图像恢复网络的约束”的新思路,并从功能理论中获取灵感,证明替代随机权重网络应以严格的数学流形形式表示。
效果:我们探索了满足这一要求的随机权重网络原型:泰勒展开网络、可逆神经网络、中心差分卷积和零阶滤波器。通过四个方面进行研究:1)随机权重策略;2)网络架构;3)网络深度;4)随机权重网络的组合。此外,我们还设计了两种随机权重变体:在整个训练过程中仅初始化一次权重,以及在每个训练时期都初始化权重。我们的方法是直接集成到现有网络中,无需额外的训练和测试计算成本。我们在多个图像恢复任务上进行了广泛的实验,包括图像去噪、低光图像增强和引导图像超分辨率,以证明我们的方法取得的一致的性能提升。
Brain Dissection: fMRI-trained Networks Reveal Spatial Selectivity in the Processing of Natural Images
Gabriel Herbert Sarch Michael J. Tarr Katerina Fragkiadaki Leila Wehbe
研究问题:如何通过深度神经网络和大脑皮层反应的对齐,更准确地解释高级视觉区域的功能?
动机:目前的模型特征虽然能提供准确的定量解释,但被批评为不可解释的“黑箱”。本文旨在通过训练网络直接预测大脑对自然场景图像的反应,并使用可解释AI技术“网络解剖”来提高神经网络的可解释性。
方法:首先从大规模自然场景数据集(Allen et. al., 2021)中训练网络直接预测大脑反应;然后采用“网络解剖”技术识别和定位图像中最重要的特征,用于训练后的单个网络单元;最后将这种方法应用于创建假设中立的模型,探索特定视觉区域的微调特性,称为“大脑解剖”。
效果:研究发现大脑区域在解读视觉场景时具有明显偏好,如腹侧-外侧区域更喜欢近距离和弯曲的特征,内侧和顶枕区域更倾向于更多样化和平坦的3D元素,而顶枕区域则独特地偏好空间关系。场景选择性区域表现出不同的偏好,如后扣带回复杂体偏爱远距离和户外特征,而枕叶和海马旁回位置区域则倾向于近距离、垂直性和室内元素(对于OPA)。这些发现表明,使用可解释AI有可能揭示视觉皮层的空间特征选择性,有助于更深入、更精细地理解人类视觉皮层在观看自然场景时的功能特性。
On the Implicit Bias of Linear Equivariant Steerable Networks
Ziyu Chen Wei Zhu
研究问题:本研究探讨了在群不变二分类中,线性等变可控网络的梯度流的隐含偏差。
动机:我们发现参数预测器会向唯一的群不变分类器收敛,该分类器由输入群动作定义的最大间隔确定。
方法:在输入表示的酉假设下,我们建立了可控网络和数据增强之间的等价性。
效果:我们证明了可控网络比非不变的网络具有更好的间隔和泛化界限。
Adversarial Examples Exist in Two-Layer ReLU Networks for Low Dimensional Linear Subspaces
Odelia Melamed Gilad Yehudai Gal Vardi
研究问题:尽管有大量的研究,但为什么训练后的神经网络对对抗性示例高度敏感仍然不清楚。
动机:本研究关注使用低维线性子空间上的数据进行训练的两层神经网络。
方法:我们展示了标准的梯度方法会导致非鲁棒的神经网络,即在与数据子空间正交的方向上具有大梯度的神经网络,并且容易在这些方向上受到小的对抗性$L_2$-扰动。此外,我们还发现通过降低训练算法的初始化尺度或添加$L_2$正则化可以使训练后的网络对与数据子空间正交的对抗性扰动更具鲁棒性。
效果:实验结果表明,通过改变训练算法的初始化尺度或添加$L_2$正则化,可以显著提高神经网络对对抗性扰动的鲁棒性。
ESSEN: Improving Evolution State Estimation for Temporal Networks using Von Neumann Entropy
Qiyao Huang Yingyue Zhang Zhihong Zhang Edwin Hancock
研究问题:如何更好地理解和分析现实世界动态系统中的时间网络演变状态。
动机:现有的方法往往无法准确描述这些网络结构的时变特性,对复杂演变状态的网络应用效果不佳。
方法:提出一种名为ESSEN的新框架,利用冯·诺依曼熵和热力学温度测量时间网络的演变,采用冯·诺依曼熵感知的注意力机制和网络演变状态对比学习进行图编码,并使用独特的解码器——混合热力学专家(MoTE)进行解码。
效果:在转导和归纳两种设置下进行链接预测任务评估,结果表明ESSEN在各种最先进的基线上具有有效性。
Multiplication-Free Transformer Training via Piecewise Affine Operations
Atli Kosson Martin Jaggi
研究问题:如何降低神经网络训练和推理中的计算成本。
动机:乘法是神经网络训练和推理中计算成本最高的部分,寻找方法来减少与它们相关的成本。
方法:受Mogami 2020的启发,将乘法替换为廉价的分段仿射近似,通过将浮点数的位表示作为整数相加来实现。
效果:在视觉和语言任务上使用修改后的矩阵乘法训练transformers,性能影响很小或没有影响,无需更改训练超参数。进一步将网络中的所有非线性项替换为完全分段仿射的形式,包括输入和权重。最后,证明可以在整个训练过程中消除所有乘法操作,包括前向传播、反向传播和优化器更新中的操作,展示了首次成功以全无乘法的方式训练现代神经网络架构。
Provable Guarantees for Neural Networks via Gradient Feature Learning
Zhenmei Shi Junyi Wei Yingyu Liang
研究问题:当前的理论分析无法充分理解神经网络的成功,如Neural Tangent Kernel方法未能捕捉到其关键的特征学习能力。
动机:提出了一个统一的分析框架,以解决目前理论分析无法充分理解神经网络成功的问题。
方法:该框架以从梯度中学习特征的原则为中心,通过在几个典型问题上的应用,如高斯混合和奇偶函数,来展示其有效性。
效果:该框架不仅有助于理解网络学习现象,如超越内核的特征学习和彩票假设,还对几个典型问题产生了积极影响。
Adaptive Topological Feature via Persistent Homology: Filtration Learning for Point Clouds
Naoki Nishikawa Yuichi Ike Kenji Yamanishi
研究问题:如何提高点云机器学习方法的准确性。
动机:通过结合全局拓扑特征(由持久同调计算得出)可以有效提高点云机器学习方法的准确性,而持久同调的计算结果受滤波器选择影响大。
方法:提出一种利用神经网络自适应学习滤波器的框架,并开发具有同构不变性的神经网络架构,同时给出滤波器函数有限维近似的理论结果。
效果:实验结果表明,该框架在多个分类任务上表现出良好的效果。
Temporal Conditioning Spiking Latent Variable Models of the Neural Response to Natural Visual Scenes
Gehua Ma Runhao Jiang Rui Yan Huajin Tang
研究问题:开发计算神经响应的模型对于理解感官处理和神经计算至关重要。
动机:目前的最先进的神经网络方法使用时间过滤器来处理时间依赖性,导致一种不切实际且不灵活的处理模式。同时,这些方法针对的是试验平均放电率,无法捕捉到尖峰序列中的重要特征。
方法:本研究提出了时序条件尖峰潜在变量模型(TeCoS-LVM)来模拟对自然视觉刺激的神经反应。我们使用尖峰神经元产生与原始记录相匹配的尖峰输出。这种方法有助于避免丢失原始尖峰序列中嵌入的信息。我们从模型参数空间中排除了时间维度,并引入了一个时序条件操作,使模型能够以自然的方式自适应地探索和利用刺激序列中的时间依赖性。
效果:实验结果表明,TeCoS-LVM模型可以产生更真实的尖峰活动,并且比强大的替代方案更准确地适应尖峰统计。此外,学习到的TeCoS-LVM模型可以在更长的时间尺度上进行泛化。总的来说,尽管保持了计算上的可处理性,但我们的模型有效地捕捉到了神经编码系统的关键特征。因此,它为构建各种感觉知觉电路的准确预测计算提供了一个有用的工具。
DISCOVER: Making Vision Networks Interpretable via Competition and Dissection
Konstantinos P. Panousis Sotirios Chatzis
研究问题:如何提高深度网络的可解释性,特别是在安全关键或偏见感知的应用中。
动机:现代深度网络的复杂性和推理结果的难以理解是其透明部署的主要障碍。
方法:利用多模态视觉-文本模型和基于局部线性单元之间随机竞争的新概念的网络层,提出一种可以发现网络中每个神经元功能的框架。
效果:该方法不仅可以保留或提高分类性能,而且为生成的神经元表示提供了一种基于文本的描述和检查原则框架。
SparseProp: Efficient Event-Based Simulation and Training of Sparse Recurrent Spiking Neural Networks
Rainer Engelken
研究问题:本文旨在解决模拟和训练脉冲神经网络(SNNs)的计算成本高的问题。
动机:由于需要解决耦合微分方程的大系统,模拟和训练SNNs的计算成本高。
方法:本文提出了一种名为SparseProp的新型事件驱动算法,用于模拟和训练稀疏SNNs。该算法将前向和后向操作的计算成本从O(N)降低到O(log(N))每网络脉冲,实现了大范围脉冲网络的数值精确模拟和高效训练。
效果:通过利用网络的稀疏性,SparseProp避免了每次脉冲都遍历所有神经元,并使用高效的状态更新。对于几种经典的积分-触发火神经元模型,包括模拟一个具有一百万LIF神经元的稀疏SNN,其速度比先前的实现快了四个数量级以上。这项工作为训练大规模脉冲神经网络提供了一种高效且精确的解决方案,并为构建更复杂的大脑启发式模型开辟了新的可能性。
Finite-Time Analysis of Whittle Index based Q-Learning for Restless Multi-Armed Bandits with Neural Network Function Approximation
GUOJUN XIONG Jian Li
研究问题:如何有效地解决难以处理的多
动机:由于需要解决耦合微分方程的大系统,模拟和训练SNNs的计算成本高。
方法:本文提出了一种名为SparseProp的新型事件驱动算法,用于模拟和训练稀疏SNNs。该算法将前向和后向操作的计算成本从O(N)降低到O(log(N))每网络脉冲,实现了大范围脉冲网络的数值精确模拟和高效训练。
效果:通过利用网络的稀疏性,SparseProp避免了每次脉冲都遍历所有神经元,并使用高效的状态更新。对于几种经典的积分-触发火神经元模型,包括模拟一个具有一百万LIF神经元的稀疏SNN,其速度比先前的实现快了四个数量级以上。这项工作为训练大规模脉冲神经网络提供了一种高效且精确的解决方案,并为构建更复杂的大脑启发式模型开辟了新的可能性。
GraphPatcher: Mitigating Degree Bias for Graph Neural Networks via Test-time Augmentation
Mingxuan Ju Tong Zhao Wenhao Yu Neil Shah Yanfang Ye
研究问题:现有的图神经网络(GNNs)在处理低度节点时存在偏差,虽然已有方法可以改善其对低度节点的处理,但会降低对原本表现良好的高度节点的处理能力。
动机:为了解决GNNs在处理低度节点时的偏差问题,同时保持其对高度节点的优秀性能。
方法:提出一种名为GraphPatcher的测试时增强框架,通过迭代生成虚拟节点来修补人为创建的低度节点,旨在逐步重建目标GNN在一系列逐渐被破坏的节点上的预测。
效果:GraphPatcher不仅学习了如何增强低度节点(当邻居被严重破坏时),而且保留了GNNs对高度节点的原有优秀性能(当轻微破坏时)。实验表明,GraphPatcher可以显著提高GNNs的整体性能和低度性能,优于现有的最佳基线。
Transformers over Directed Acyclic Graphs
Yuankai Luo Veronika Thost Lei Shi
研究问题:如何将图的结构偏差注入到transformer架构中。
动机:最近,transformer模型在图表示学习中越来越受欢迎,因为它们有可能学习到超出常规图神经网络所能捕捉的复杂关系。
方法:本文研究了基于有向无环图(DAG)的transformer,并提出了一些专门针对DAG的架构调整:(1)一种比常规二次复杂度的transformer更为高效的注意机制,同时忠实地捕捉DAG结构;(2)对DAG的部分顺序进行位置编码,以补充前者。
效果:我们通过各种类型的任务严格评估了我们的方法,从分类源代码图到引用网络中的节点,并表明它在两个方面是有效的:一是使图transformer普遍优于定制的DAG图神经网络;二是提高SOTA图transformer在质量和效率方面的表现。
Evaluating the Robustness of Interpretability Methods through Explanation Invariance and Equivariance
Jonathan Crabbé Mihaela van der Schaar
研究问题:如何使神经网络的解释在特定对称群下保持不变,以增强其解释的鲁棒性。
动机:现有的解释方法需要与模型的对称性质保持一致,才能准确描述模型。
方法:通过几何深度学习的形式化方法,提出了解释不变性和等变性的概念,并推导出两种度量方法来测量任何解释方法对模型对称群的鲁棒性。
效果:通过实证测量不同模态和对称群下的模型解释,得出了5条指导原则,帮助用户和开发者生成鲁棒的解释。
On the Convergence of Encoder-only Shallow Transformers
Yongtao Wu Fanghui Liu Grigorios Chrysos Volkan Cevher
研究问题:本文旨在构建一个现实环境下的编码器浅层Transformer的全局收敛理论,主要从架构、初始化和有限宽度下的缩放角度进行探讨。
动机:Transformer的核心是自注意力机制中的softmax,如何有效处理这一问题是关键。此外,我们希望通过分析不同的缩放方案和初始化对模型训练动态的影响,以深化对现代Transformer的理解。
方法:我们详细处理了softmax的输入/输出,并证明了二次过参数化对于常见的He/LeCun初始化在实践中的浅层Transformer的全局收敛性是足够的。同时,我们还进行了基于神经切线核(NTK)的分析。
效果:实验结果表明,不同的缩放方案和初始化的重要性各不相同。我们的研究为更好地理解现代Transformer,特别是其训练动态提供了新的视角。
Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities
Dongrui Liu Huiqi Deng Xu Cheng Qihan Ren Kangrui Wang Quanshi Zhang
研究问题:本文旨在理论解释深度神经网络(DNN)更易学习简单概念而非复杂概念的直觉。
动机:最近的研究发现,DNN通常只编码少量交互概念,并使用它们的交互效应来计算推理分数。因此,本研究旨在理论上解释涉及更多输入变量(即更复杂的概念)的交互概念更难学习。
方法:通过观察和证明DNN中交互概念的出现,以及每个交互概念如何代表一组输入变量之间的协作,来理解这一现象。
效果:这项发现明确了提高学习难度的具体概念复杂性。
Characterizing Graph Datasets for Node Classification: Homophily-Heterophily Dichotomy and Beyond
Oleg Platonov Denis Kuznedelev Artem Babenko Liudmila Prokhorenkova
研究问题:目前对于图的同质性(Homophily)测量方法存在缺陷,无法准确比较不同数据集的同质性水平。
动机:同质性和异质性是描述图结构的重要属性,但现有的同质性测量方法存在问题,限制了图神经网络在处理异质性图上的效果。
方法:提出了一种新的同质性测量方法——调整后的同质性,并进一步提出了标签信息量(LI)这一新的图结构特征,用于衡量一个节点的标签能从其邻居的标签中得到多少信息。
效果:实验证明,调整后的同质性比现有方法更能满足理想的性质,而标签信息量与图神经网络的性能有更好的一致性,证实了其作为图结构的有效特征的价值。
Performance-optimized deep neural networks are evolving into worse models of inferotemporal visual cortex
Drew Linsley Ivan F Rodriguez Rodriguez Thomas FEL Michael Arcaro Saloni Sharma Margaret Livingstone Thomas Serre
研究问题:随着深度神经网络在物体识别任务上的准确性提高,它们是否仍然能准确预测下颞叶皮层神经元对图像的反应?
动机:深度神经网络在物体识别任务上的准确性与它们预测下颞叶皮层神经元反应的能力之间存在关联。然而,随着网络准确性的提高,这种关系是否仍然存在尚不清楚。
方法:通过对三个独立实验的分析,研究人员发现随着深度神经网络在ImageNet数据集上的准确性提高,它们预测下颞叶皮层神经元反应的能力反而下降。通过使用神经协调器,一种可以调整深度神经网络学习到的表示以匹配人类理解的插件式训练程序,研究人员成功地解决了这个问题。
效果:经过神经协调器的调整后,深度神经网络打破了在ImageNet准确性和神经元预测准确性之间的权衡,为更准确地模拟生物视觉提供了可能。这暗示了我们可能需要修改使用任务优化的深度神经网络来模拟下颞叶皮层的标准方法,并需要包括人类心理物理学数据在内的其他生物学约束条件,才能准确地逆向工程视觉皮层。
SEENN: Towards Temporal Spiking Early Exit Neural Networks
Yuhang Li Tamar Geller Youngeun Kim Priyadarshini Panda
研究问题:本文旨在解决传统人工神经网络在处理信息时的效率和准确性问题。
动机:由于传统的人工神经网络在处理信息时存在效率和准确性的问题,作者们提出了一种新的方法——脉冲神经网络(SNNs),它以生物相似的方式处理输入,但发现其信息容量受时间步长的影响,导致准确性和效率之间的权衡。
方法:作者们提出了一种精细调整SNN中时间步长的方法,即脉冲早期退出神经网络(SEENN)。通过设定阈值过滤掉不确定的预测结果,或者通过强化学习确定时间步长。
效果:通过动态调整时间步长,SEENN在推理过程中显著减少了平均时间步数。例如,SEENN-II ResNet-19在CIFAR-10测试数据集上可以达到96.1%的准确率,平均时间步数为1.08。
The expressive power of pooling in Graph Neural Networks
Filippo Maria Bianchi Veronica Lachi
研究问题:本文旨在研究图神经网络(GNN)中,图池化操作如何影响其表现力,以及如何比较不同的图池化操作。
动机:尽管图神经网络在处理图形数据上取得了显著的进展,但关于图池化操作对GNN表现力的影响的研究还很少,同时缺乏一个理论性的标准来比较不同的图池化操作。
方法:通过理论推导,提出了一个充分条件,用于判断一个图池化操作是否能完全保留其之前的MP层的表现力。基于这些条件,我们分析了几种现有的图池化操作,并找出了那些不能满足表现力条件的操作。
效果:通过实验验证了配备有池化层的GNN在执行图同构测试时的表现力。
Spike-driven Transformer
Man Yao JiaKui Hu Zhaokun Zhou Li Yuan Yonghong Tian Bo XU Guoqi Li
研究问题:如何将脉冲神经网络(SNNs)的脉冲驱动范式应用于Transformer模型,以提高深度学习的效率。
动机:由于其独特的事件驱动(即脉冲驱动)模式,SNNs提供了一种能源高效的深度学习选择。
方法:通过提出的脉冲驱动Transformer,将脉冲驱动范式引入到Transformer中,具有四个独特的特性:(1)事件驱动,当Transformer的输入为零时,不触发任何计算;(2)二进制脉冲通信,所有与脉冲矩阵相关的矩阵乘法都可以转化为稀疏加法;(3)在令牌和通道维度上都有线性复杂度的自我注意力;(4)在脉冲形式查询、键和值之间的操作是掩码和加法。
效果:设计的脉冲驱动自注意力(SDSA)只利用了掩码和加法操作,没有任何乘法操作,因此比标准的自注意力有高达$87.2times$的计算能量节省。特别是在SDSA中,查询、键和值之间的矩阵乘法被设计为掩码操作。此外,我们还重新排列了标准Transformer中激活函数之前的所有残差连接,以确保所有神经元传输二进制脉冲信号。实验表明,脉冲驱动Transformer在ImageNet-1K上可以达到77.1%的top-1准确率,这是SNN领域中最先进的结果。
On the Ability of Graph Neural Networks to Model Interactions Between Vertices
Noam Razin Tom Verbin Nadav Cohen
研究问题:本文旨在填补图神经网络(GNNs)在理论分析其交互建模能力方面的空白。
动机:尽管已有许多努力从理论上分析GNN的表达能力,但对其交互建模能力的正式描述仍然缺乏。
方法:通过一种被称为分离度的既定度量标准,对特定GNNs在给定子集顶点与其补集之间(即输入顶点分区的两侧)建模交互的能力进行量化。
效果:实验结果表明,交互建模能力主要由分区的行走索引决定,这是一种由源于分区边界的步数定义的图论特性。当输入边被移除时,我们设计了一种名为行走索引稀疏化(WIS)的边缘稀疏化算法,该算法保留了GNN的交互建模能力。WIS简单、计算效率高,并且在实验中在诱导预测精度方面显著优于其他方法。
Sharpness-Aware Minimization Leads to Low-Rank Features
Maksym Andriushchenko Dara Bahri Hossein Mobahi Nicolas Flammarion
研究问题:本文旨在揭示一种新提出的SAM方法在训练神经网络时,除了众所周知的改善泛化能力外,还能降低网络各层特征的秩。
动机:尽管SAM方法的主要目标是提高泛化能力,但作者发现它还有一个额外的效果,即在不同网络架构和目标下,都能降低特征的秩。
方法:通过实验在不同的网络架构(如全连接网络、卷积网络、视觉变换器)和目标(如回归、分类、语言-图像对比训练)上应用SAM方法,观察其对特征秩的影响。并通过理论分析和深度网络实验来理解这一现象。
效果:实验结果显示,SAM方法能显著降低不同网络层的特征秩,且该效果在深度网络中也会出现,尽管对于具有预激活跳过连接和自我注意力层的深度网络,整体的秩降低机制可能更为复杂。
Tanh Works Better with Asymmetry
Dongjin Kim Woojeong Kim Suhyun Kim
研究问题:本文探讨了批量归一化在激活函数前后的位置对模型性能的影响。
动机:原始论文建议将批量归一化放在激活函数前面,但有研究发现,当使用如Tanh这样的有界激活函数时,将其顺序调换可以获得更好的性能。
方法:通过观察单个激活函数的输出分布,发现许多激活函数是非线性饱和的。实验设计以诱导不同程度的非线性饱和,结果支持非线性饱和有助于提高性能的观点。此外,批量归一化在有界激活函数后可以将非线性饱和的输出重新定位到接近零,使模型具有高稀疏性,进一步提高性能。
效果:通过大量的实验,证实了在Tanh、LeCun Tanh和Softsign等激活函数中,调整顺序后的模型在高度非线性饱和的情况下获得了更好的性能。进一步测试了一种被操纵为具有一致非对称性的移位Tanh函数,其准确性甚至超过了原顺序使用的原始Tanh函数,从而确认了非对称性的重要性。
Parallel Spiking Neurons with High Efficiency and Ability to Learn Long-term Dependencies
Wei Fang Zhaofei Yu Zhaokun Zhou Ding Chen Yanqi Chen Zhengyu Ma Timothée Masquelier Yonghong Tian
研究问题:现有的脉冲神经网络(SNNs)中的普通脉冲神经元只能串行模拟,且难以学习长期依赖关系。
动机:通过去除重置操作,神经元动态可以被改写为非迭代形式并实现并行化。
方法:提出了并行脉冲神经元(PSN),其生成的隐藏状态与前驱无关,从而实现了可并行化的神经元动态和极高的模拟速度。
效果:在模拟速度和时间/静态数据分类方面评估PSN家族,结果显示其在效率和准确性方面具有明显优势。这是首次研究关于如何并行化脉冲神经元的问题,对深度学习的研究具有重要意义。
Learning Curves for Deep Structured Gaussian Feature Models
Jacob A Zavatone-Veth Cengiz Pehlevan
研究问题:本文旨在探讨深度学习模型在插值训练数据时是否仍能良好泛化到未见过的示例。
动机:尽管已有大量研究关注模型插值训练数据时的泛化能力,但大多数研究都假设随机特征是由独立同分布的高斯权重生成的,且只允许输入数据中存在结构。
方法:本文使用统计物理学中的复制技术,为具有多层结构化高斯特征的模型推导学习曲线。结果显示,允许特征层的第一行之间的相关性有助于泛化,而后续层的结构通常对泛化不利。
效果:本文的研究结果为我们理解权重结构如何影响简单可解模型的泛化能力提供了新的见解。
Towards Anytime Classification in Early-Exit Architectures by Enforcing Conditional Monotonicity
Metod Jazbec James Urquhart Allingham Dan Zhang Eric Nalisnick
研究问题:如何使早期退出神经网络适应动态计算预算的实时预测环境。
动机:现有的早期退出网络在实时计算环境中无法保证预测质量随计算时间的增长而提高,因此需要改进。
方法:提出一种基于专家乘积的后处理方法,鼓励早期退出网络逐渐增强信心,从而使深度模型具有条件单调性。
效果:在标准图像分类任务上进行实证研究,结果表明该方法可以在保持平均竞争力的同时实现这种行为。
Learning Time-Invariant Representations for Individual Neurons from Population Dynamics
Lu Mi Trung Le Tianxing He Eli Shlizerman Uygar Sümbül
研究问题:如何为单个神经元分配时间不变的表示,以反映其从电路其余部分接收的输入。
动机:虽然神经元的活动表现出高度的可变性,但其基因表达在成年大脑中相对稳定。这表明神经元活动是其时间不变的特性和从电路其余部分接收的输入的组合。
方法:提出了一种基于自监督学习的方法,根据置换和群体大小不变的群体记录总结,为单个神经元分配时间不变的表示。通过考虑个体和邻近群体的活动来拟合动态模型以学习表示。
效果:在公开的小鼠皮层神经元活动和转录组标签多模态数据集上演示了该方法。报告了相对于最先进的方法,预测转录子亚类身份提高了35%,预测类别身份提高了20%。
topic-5
adversarial model privacy models robustness data robust attacks
Conformal Meta-learners for Predictive Inference of Individual Treatment Effects
Ahmed Alaa Zaid Ahmad Mark van der Laan
研究问题:本文旨在解决基于机器学习的个体治疗效应(ITE)预测推理问题。
动机:现有的工作主要集中在开发基于机器学习的“元学习器”,用于提供条件平均治疗效应(CATE)的点估计,这些是结合中间混杂估计以产生CATE估计的模型无关方法。
方法:本文开发了一致元学习器,这是一个通过在CATE元学习器上应用标准的一致预测(CP)程序来为ITEs发布预测区间的通用框架。我们关注基于两阶段伪结果回归的一类广泛的元学习器,并开发了一个随机排序框架来研究它们的有效性。
效果:实验结果表明,如果元学习器的(伪结果)一致性得分随机优于在未观察到的ITEs上评估的“理想”一致性得分,那么使用一致元学习器进行推理是边际有效的。此外,我们还证明,常用的CATE元学习器,如双稳健学习器,满足模型和分布自由的随机(或凸)占优条件,使其一致推理在实践中相关的目标覆盖水平下有效。与现有的通过加权CP对潜在结果进行推理的过程不同,一致元学习器能够直接对目标参数(ITE)进行推理。数值实验表明,一致元学习器提供了具有竞争力的效率的有效区间,同时保留了CATE元学习器的有利的点估计特性。
Evaluating Post-hoc Explanations for Graph Neural Networks via Robustness Analysis
Junfeng Fang Wei Liu Yuan Gao Zemin Liu An Zhang Xiang Wang Xiangnan He
研究问题:本文旨在评估图神经网络的解释性,这是实际应用中事后解释可信度的关键。
动机:传统的评估指标和解释方法主要遵循提供解释子图并测量输出差异的模式,但总是受到著名的分布外(OOD)问题的困扰。
方法:我们引入了一种新的评估指标,称为OOD-resistant Adversarial Robustness(OAR)。具体来说,我们从对抗鲁棒性的概念中汲取灵感,通过计算其在攻击下的鲁棒性来评估事后解释子图。此外,我们还在流程中插入了一个详细的OOD重权重块,以将评估过程限制在原始数据分布内。对于涉及大型数据集的应用,我们还设计了一种简化版的OAR(SimOAR),在牺牲少量性能的情况下,显著提高了计算效率。
效果:大量的实证研究表明,我们的OAR和SimOAR非常有效。
Jailbroken: How Does LLM Safety Training Fail?
Alexander Wei Nika Haghtalab Jacob Steinhardt
研究问题:大型语言模型在安全和无害性方面仍容易受到对抗性滥用,如ChatGPT早期版本中普遍存在的“越狱”攻击。
动机:我们不仅识别了这个问题,还调查了这种攻击为何成功以及如何创建。
方法:我们假设了两种安全训练的失败模式:竞争目标和不匹配的泛化。当模型的能力与安全目标冲突时,就会出现竞争目标;当安全训练未能泛化到存在能力的领域时,就会出现不匹配的泛化。我们使用这些失败模式来指导越狱设计,并评估最先进的模型,包括OpenAI的GPT-4和Anthropic的Claude v1.3,以对抗现有的和新设计的袭击。
效果:我们发现,尽管这些模型背后的红队评估集进行了广泛的红队评估和安全训练,但仍然存在漏洞。值得注意的是,利用我们的失败模式的新攻击在所有提示中都成功了,并在模型的红队评估集中的一系列不安全的请求中超越了现有的临时越狱。我们的分析强调了安全能力对等的重要性——即安全机制应该与底层模型一样复杂——并反对仅靠扩大规模就能解决这些安全失败模式的观点。
Privacy Auditing with One (1) Training Run
Thomas Steinke Milad Nasr Matthew Jagielski
研究问题:提出一种单次训练的差分隐私机器学习系统审计方案。
动机:利用并行添加或删除多个独立训练样本的能力,避免分组隐私的成本。
方法:通过差分隐私与统计泛化的关联进行分析,对算法的假设需求最小,适用于黑盒或白盒设置。
效果:应用于DP-SGD,仅通过训练一个模型就可以达到有意义的经验隐私下界,而标准方法则需要训练数百个模型。
On the Role of Randomization in Adversarially Robust Classification
Lucas Gnecco Heredia Muni Sreenivas Pydi Laurent Meunier benjamin negrevergne Yann Chevaleyre
研究问题:深度神经网络易受测试数据中的微小对抗性扰动影响,为了防御对抗性攻击,概率分类器被提出作为确定性分类器的替代。然而,关于概率分类器与确定性分类器在防御对抗性攻击方面的有效性,现有文献存在冲突的发现。
动机:本论文旨在阐明随机化在构建对抗性鲁棒分类器中的作用。
方法:给定一个确定性分类器的基本假设集,我们展示了在何种条件下随机化集成在对抗风险上优于假设集,扩展了之前的结果。此外,我们还表明,对于任何概率二元分类器(包括随机化集成),都存在一种确定性分类器能优于它。最后,我们为许多常见的概率分类器(即随机化集成和参数/输入噪声注入)给出了包含这样一种确定性分类器的明确描述。
效果:实验结果表明,在某些条件下,随机化集成在对抗风险上优于基本假设集;并且对于任何概率二元分类器,都存在一种确定性分类器能优于它。
GLIME: General, Stable and Local LIME Explanation
Zeren Tan Yang Tian Jian Li
研究问题:随着黑箱机器学习模型变得越来越复杂,并在高风险环境中应用,对其预测提供解释的需求变得至关重要。
动机:尽管局部可解释的模型无关的解释(LIME)是一种广泛采用的方法来理解模型行为,但它在随机种子方面存在不稳定性,并且表现出低局部保真度。
方法:我们的研究提出了一种增强的框架Glime,它扩展了LIME并统一了几种先前的方法。在Glime框架中,我们得到了一个等效的LIME公式,该公式实现了显著更快的收敛和改进的稳定性。通过使用局部且无偏的采样分布,Glime生成的解释与LIME相比具有更高的局部保真度,同时独立于参考选择。
效果:实验结果表明,Glime在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
A Privacy-Friendly Approach to Data Valuation
Jiachen T. Wang Yuqing Zhu Yu-Xiang Wang Ruoxi Jia Prateek Mittal
研究问题:本文旨在解决数据估值中面临的隐私挑战,特别是针对KNN-Shapley这一实用的数据估值方法。
动机:随着数据估值领域的发展,如何量化单个数据源对训练机器学习模型的有用性成为了重要课题。然而,这个过程中往往忽视了隐私保护的问题。
方法:本文首先强调了KNN-Shapley方法的内在隐私风险,并展示了在该方法中引入差分隐私(DP)所面临的重大技术挑战。然后,提出了TKNN-Shapley,这是KNN-Shapley的一个改进版本,更加关注隐私保护,可以方便地修改以提供DP保证。
效果:实验结果表明,与直接进行私有化处理的KNN-Shapley相比,DP-TKNN-Shapley具有更多的优势,并且在隐私和效用之间提供了更好的权衡。此外,即使没有进行私有化处理的TKNN-Shapley也能匹配KNN-Shapley的数据质量识别性能。总的来说,这些发现表明TKNN-Shapley是KNN-Shapley的一个有前景的替代方案,特别是在涉及敏感数据的实际应用中。
Group Fairness in Peer Review
Haris Aziz Evi Micha Nisarg Shah
研究问题:大型会议如NeurIPS和AAAI的投稿分配方式可能导致某些社区的评审体验不佳,因为他们的投稿可能会被分配给不熟悉该领域的评审员。
动机:为了解决这个问题,我们提出了一个称为“核心”的群体公平性概念,要求在处理每个可能的社区(研究人员子集)时,防止他们单方面从大型会议中获益。
方法:我们研究了一个简单的同行评审模型,证明了它总是可以在核心中找到一种审稿分配方式,并设计了一个有效的算法来找到这样的分配方式。
效果:我们使用来自CVPR和ICLR会议的真实数据,通过多个指标将我们的算法与现有的审稿分配算法进行了比较。
Delegated Classification
Eden Saig Inbal Talgam-Cohen Nir Rosenfeld
研究问题:当机器学习任务外包给理性代理时,可能出现利益冲突,严重影响预测性能。
动机:提出一个理论框架,用于有意识的激励性机器学习任务委派。
方法:将委派建模为主代理人博弈,通过基于绩效的合同来激励准确的学习。
效果:实验证明,可以使用小规模数据构建预算最优合同,利用学习曲线和规模定律的最新研究成果。在合成和现实世界分类任务中评估性能和经济结果。
Counterfactual Evaluation of Peer-Review Assignment Policies
Martin Saveski Steven Jecmen Nihar B Shah Johan Ugander
研究问题:如何评估同行评审分配算法的变化对评审质量的影响?
动机:设计有效的分配策略的一个主要挑战是评估分配算法的变化如何映射到评审质量的变化。
方法:利用最近提出的在同行评审分配中引入随机性(以减轻欺诈)的政策,作为评估反事实分配政策的机会。具体来说,我们利用这种随机分配如何提供观察到许多感兴趣的分配政策的积极概率。为了解决应用标准的离策略评估方法的挑战,如违反正则性,我们引入了基于审稿人-论文协变量和结果之间的映射的单调性和Lipschitz平滑性的新颖的部分识别方法。
效果:我们发现,更重视文本相似度会导致更高的评审质量,而在审稿人-论文分配中引入随机性只会略微降低评审质量。我们的部分识别方法可能具有独立的兴趣,而我们的离策略方法可以用于评估一类广泛的算法匹配系统。
Participatory Personalization in Classification
Hailey James Chirag Nagpal Katherine A Heller Berk Ustun
研究问题:目前的机器学习模型在个性化预测时,缺乏对用户同意的考虑和信息提供。
动机:为了解决这一问题,我们提出了一种名为参与系统的预测模型,让用户在预测时选择是否接受个性化。
方法:我们设计了一种模型无关的算法,用于学习带有类别群体属性的监督学习任务的参与系统。
效果:通过在临床预测任务中的全面实证研究,我们发现参与系统能够提高性能和隐私保护,同时改善所有报告个人信息的群体的同意和知情权。
Learning to Receive Help: Intervention-Aware Concept Embedding Models
Mateo Espinosa Zarlenga Katherine M. Collins Krishnamurthy Dj Dvijotham Adrian Weller Zohreh Shams Mateja Jamnik
研究问题:概念瓶颈模型(CBMs)通过使用一组高级概念来构建和解释其预测,以解决神经网络结构的不透明性。然而,最近的研究表明,干预效果可能高度依赖于概念干预的顺序以及模型的架构和训练超参数。
动机:本文认为这源于CBM缺乏对概念干预的适当反应的训练激励。为了解决这个问题,我们提出了干预感知的概念嵌入模型(IntCEMs),这是一种基于CBM的新型架构和训练范式,可以提高模型对测试时间干预的接受能力。
方法:我们的模型从端到端学习了一个概念干预策略,从而在训练时可以采样有意义的干预轨迹。这使得IntCEMs在部署到测试时能够有效地选择和接收概念干预。
效果:实验表明,当提供测试时间的概念干预时,IntCEMs显著优于最先进的概念可解释模型,证明了我们的方法的有效性。
Evaluating the Moral Beliefs Encoded in LLMs
Nino Scherrer Claudia Shi Amir Feder David Blei
研究问题:本文旨在通过设计、管理、后处理和评估大型语言模型(LLMs)的调查,探讨其内部编码的道德信念。
动机:了解不同LLMs在模糊情况下的道德选择,特别是在正确选择不明显的情况下。
方法:设计了一个包含680个高模糊度道德场景和687个低模糊度道德场景的大型调查问卷,并对28个开源和闭源LLMs进行调查。
效果:发现大部分模型在明确的场景中会选择符合常识的行动,而在模糊的情况下,大部分模型会表示不确定。部分模型对选择常识行动感到不确定是因为其响应对问题措辞敏感。部分模型在模糊场景中反映出明确的偏好,特别是闭源模型往往彼此之间达成一致。
Individual Arbitrariness and Group Fairness
Carol Xuan Long Hsiang Hsu Wael Alghamdi Flavio Calmon
研究问题:本文旨在解决机器学习任务中预测多重性的问题,即多个模型在性能上相似,但对个体样本的输出产生冲突。
动机:目前的公平性干预措施在优化群体公平性和准确性时,可能会加剧预测多重性的问题。因此,我们需要在部署模型以帮助决策制定时,考虑“任意性”这一第三轴。
方法:我们提出了一种适用于任何公平性干预的集成算法,该算法可以确保更一致的预测。
效果:实验结果表明,我们的算法能够有效地解决预测多重性的问题,提高模型的预测一致性。
Anonymous and Copy-Robust Delegations for Liquid Democracy
Markus Utke Ulrike Schmidt-Kraepelin
研究问题:本文旨在解决液体民主中委托代理投票制度中的匿名性和复制鲁棒性之间的权衡问题。
动机:现有的委托代理投票制度存在匿名性和复制鲁棒性之间的矛盾,需要寻找一种能够同时满足这两个属性的投票规则。
方法:研究了两种分数委托代理投票规则:混合Borda分支和随机游走规则,并使用马尔科夫链树定理证明了这两种规则在匿名性和复制鲁棒性的一般化版本上是等价的。结合Fulkerson的算法,开发了一种计算所研究委托代理投票结果的多项式时间算法。
效果:该算法具有独立应用价值,可应用于半监督学习和图论。
Which Models have Perceptually-Aligned Gradients? An Explanation via Off-Manifold Robustness
Suraj Srinivas Sebastian Bordt Himabindu Lakkaraju
研究问题:本文旨在解释计算机视觉模型中输入梯度与人类感知对齐的现象,即所谓的感知对齐梯度(PAGs)。
动机:尽管只经过分类训练,但PAGs使健壮的模型具有基本的生成能力,包括图像生成、去噪和修复。然而,这些现象背后的机制尚不清楚。
方法:本文通过“离群点稳健性”首次解释了PAGs,该理论指出模型在数据流形外的稳健性必须高于其在流形上的稳健性。我们首先从理论上证明离群点稳健性导致输入梯度近似位于数据流形上,从而解释了它们的感知对齐。然后,我们证明贝叶斯最优模型满足离群点稳健性,并通过梯度范数正则化、随机平滑和投影梯度下降的对抗训练等方式,实证证实了健壮模型满足这一特性。
效果:通过量化模型梯度与生成模型梯度的相似性,我们发现离群点稳健性与感知对齐密切相关。最后,基于在数据流形内外的稳健性的水平,我们确定了影响感知对齐和模型准确性的三种不同稳健性区间:弱稳健性、贝叶斯对齐稳健性和过度稳健性。
Auditing for Human Expertise
Rohan Alur Loren Laine Darrick K Li Manish Raghavan Devavrat Shah Dennis Shung
研究问题:在高风险预测任务中,专家的判断往往优于算法,这引发了一个问题,即人类专家是否提供了无法被算法捕获的价值。
动机:为了解决这个问题,研究者开发了一个统计框架,通过这个框架,他们可以将其视为一个自然假设检验。
方法:研究者提出了一个简单的程序,该程序测试了专家预测结果是否在给定输入(“特征”)后与感兴趣的结果独立。如果拒绝这个测试,那么就说明人类专家可能为任何基于可用数据训练的算法增加了价值。
效果:通过对一家大型学术医院系统的急诊部门收集的入院数据进行分析,研究者发现,尽管标准算法筛查工具可能比医生的自主决策更准确,但医生对急性胃肠出血患者的入院/出院决定似乎包含了一些标准算法筛查工具无法获得的信息。这表明,即使不考虑解释性或可解释性的规范性问题,仅仅准确性并不足以证明算法自动化的合理性。
Topological Parallax: A Geometric Specification for Deep Perception Models
Abraham David Smith Michael J. Catanzaro Gabrielle Angeloro Nirav Patel Paul Bendich
研究问题:如何通过比较训练模型和参考数据集的多尺度几何结构,确定其是否具有相似性,以提高AI系统的安全性和鲁棒性。
动机:当前的深度学习应用中,模型的几何描述不明确,而数据集和模型之间的几何相似性对于可信赖的插值和扰动至关重要。
方法:引入拓扑视差作为理论和计算工具,通过检查参考数据集对Rips复形的测地扭曲效应,估计模型中的拓扑特征(组件、环、空穴等)。
效果:实验证明,数据集和模型之间的几何相似性对于可信赖的插值和扰动至关重要,这一新概念将为当前关于深度学习应用中“过拟合”与“泛化”关系的争论增添价值。
On the Gini-impurity Preservation For Privacy Random Forests
XinRan Xie Man-Jie Yuan Xuetong Bai Wei Gao Zhi-Hua Zhou
研究问题:本文旨在提出一种新的加密方法,以保护随机森林算法中数据的信息熵。
动机:尽管现有的随机森林算法的隐私保护技术多种多样,但很少有研究关注到学习算法的关键成分。
方法:我们提出了一种新的加密方案,该方案通过修改二叉搜索树的结构,在每个节点中存储多个示例,并结合标签和顺序信息对数据特征进行加密。
效果:实验结果表明,我们的方案在不解密的情况下,能在密文中保留最小的信息熵,同时提供了加密的安全性保证。
Uncertainty Quantification over Graph with Conformalized Graph Neural Networks
Kexin Huang Ying Jin Emmanuel Candes Jure Leskovec
研究问题:如何为图神经网络提供严格的不确定性估计,以减少在错误成本高的场景中的不可靠部署。
动机:现有的图神经网络缺乏严谨的不确定性估计,限制了其在错误成本高的环境中的可靠部署。
方法:提出一种规范化的图神经网络(CF-GNN),将一致性预测(CP)扩展到基于图的模型中,以获得保证的不确定性估计。
效果:实验结果表明,CF-GNN在达到任何预定义的目标边际覆盖的同时,通过比基线最多减少74%的预测集/区间大小,显著减少了预测集/区间长度。同时,它在各种原始和网络特征上实现了满意的条件覆盖。
Differentially Private Image Classification by Learning Priors from Random Processes
Xinyu Tang Ashwinee Panda Vikash Sehwag Prateek Mittal
研究问题:在隐私保护机器学习中,由于每个样本的梯度裁剪和噪声添加,差分隐私随机梯度下降(DP-SGD)的性能比SGD更差。
动机:目前,私人学习研究的一个重点是通过在真实世界的公共数据上学习先验知识来提高DP-SGD在私有数据上的性能。
方法:我们探索了如何通过从随机过程生成的图像中学习先验知识并将这些先验知识转移到私有数据上来改善DP-SGD的隐私效用权衡。我们提出了DP-RandP,一种三阶段的方法。
效果:我们在一系列隐私预算ε∈[1,8]下,从零开始在CIFAR10、CIFAR100、MedMNIST和ImageNet上进行训练,取得了新的最先进的精度。特别是在ε=1时,我们将CIFAR10上的先前最佳报告精度从60.6%提高到72.3%。
A Scalable Neural Network for DSIC Affine Maximizer Auction Design
Zhijian Duan Haoran Sun Yurong Chen Xiaotie Deng
研究问题:如何通过机器学习设计出具有高收入的经验主义机制的自动拍卖。
动机:现有的多物品拍卖场景的研究方法存在无法严格保证占优策略激励兼容性和面临由于分配候选者数量大而导致的可扩展性问题。
方法:提出AMenuNet,一种从出价者和项目表示中构建AMAs参数(包括分配菜单)的可扩展神经网络。
效果:实验结果表明,AMenuNet在上下文和非上下文多物品拍卖中均优于强大的基线,能很好地扩展到更大的拍卖,在不同的环境中具有良好的泛化能力,并能识别有用的确定性分配,为自动化的DSIC拍卖设计提供了有效的解决方案。
Vulnerabilities in Video Quality Assessment Models: The Challenge of Adversarial Attacks
Aoxiang Zhang Yu Ran Weixuan Tang Yuan-Gen Wang
研究问题:本文旨在评估无参考视频质量评估(NR-VQA)模型对抗性攻击的鲁棒性,并提出一种针对黑盒攻击的基于补丁的随机搜索方法。
动机:为了建立一个可靠且实用的评估系统,评估NR-VQA模型的鲁棒性是至关重要的,但这个问题在学术界尚未引起足够的关注。
方法:本文提出了一种新的损失函数Score-Reversed Boundary Loss,通过将估计的质量分数推向一个特定的边界,同时满足仅可察觉差异(JND)约束,以实现有效且难以察觉的白盒和黑盒攻击。
效果:实验结果表明,该方法能够有效地对NR-VQA模型进行攻击,提高其鲁棒性。
A One-Size-Fits-All Approach to Improving Randomness in Paper Assignment
Yixuan Even Xu Steven Jecmen Zimeng Song Fei Fang
研究问题:如何有效地为大型出版场所的同行评审过程分配论文审查员,以实现专家匹配、抵御恶意行为、评估替代论文分配方案、保持审稿人多样性和审稿人匿名性等多重目标。
动机:目前,自动论文分配算法在满足这些多重目标方面存在挑战,需要一种能够同时满足所有考虑因素的随机化论文分配方法。
方法:本文提出了一种实用的、通用的随机化论文分配方法,该方法在不同的随机性动机下都能表现良好。
效果:理论和实验证明,该方法在几个直观的随机性度量上优于当前部署的随机化论文分配方法,表明该方法生成的随机化分配是通用的。
Aleatoric and Epistemic Discrimination: Fundamental Limits of Fairness Interventions
Hao Wang Luxi He Rui Gao Flavio Calmon
研究问题:机器学习模型在开发过程中的选择和数据固有的偏见可能导致某些人群的性能不佳。
动机:本研究将机器学习管道中的歧视来源分为两类:固有于数据分布的随机歧视和由于模型开发过程中的决定导致的先验歧视。
方法:我们通过确定模型在公平性约束下的性能极限,假设完全了解数据分布,来量化随机歧视。然后,我们将模型的精度与应用公平性约束时的随机歧视限制之间的差距,作为先验歧视的度量。
效果:我们的研究结果表明,现有的公平性干预措施在标准的(过度使用的)表格数据集上有效地消除了先验歧视。然而,当数据存在缺失值时,处理随机歧视仍有很大的改进空间。
Evaluating and Inducing Personality in Pre-trained Language Models
Guangyuan Jiang Manjie Xu Song-Chun Zhu Wenjuan Han Chi Zhang Yixin Zhu
研究问题:如何以原则性和量化的方式评估机器学习模型的行为?能否在机器学习模型中引入特定的个性?
动机:借鉴人类性格理论,通过心理测量工具对机器行为进行系统化的研究,为构建类似人类的社交机器提供参考。
方法:提出“机器个性量表”(MPI)工具,基于大五人格因素理论和人格评估量表,对机器学习模型进行标准化评估。同时设计了“个性提示”(P$^2$)方法,以可控的方式引导机器学习模型展现特定个性。
效果:首次证明了MPI在研究机器学习模型行为上的有效性,成功实现了以个性化为导向的多样化、可验证的机器行为。
Adversarial Examples Might be Avoidable: The Role of Data Concentration in Adversarial Robustness
Ambar Pal Jeremias Sulam Rene Vidal
研究问题:现代机器学习分类器对对抗性示例的敏感性是否意味着这些对抗性示例是不可避免的?
动机:尽管理论结果认为对抗性示例可能是不可避免的,但这些结果可能过于普遍,无法适用于自然数据分布。人类在视觉任务中表现出了相当的鲁棒性,这与理论结果产生了明显的冲突。
方法:我们通过理论研究发现,数据分布的一个关键属性——输入空间小体积子集的集中程度——决定了是否存在鲁棒的分类器。我们还发现,对于集中在低维线性子空间上的数据集,利用数据结构自然能够产生具有良好鲁棒性保证的分类器,在某些情况下优于可证明认证的方法。
效果:我们的研究结果揭示了对抗性示例是否不可避免取决于数据分布的特性,为理解人类视觉任务中的鲁棒性提供了新的视角,并为设计鲁棒的分类器提供了指导。
Smooth Flipping Probability for Differential Private Sign Random Projection Methods
Ping Li Xiaoyun Li
研究问题:如何通过随机投影和符号随机投影方法,开发一系列差分隐私(DP)算法。
动机:改善现有的DP-RP方法,利用最优高斯机制,并利用随机投影的“符号翻转概率”的鲁棒性,提出一系列DP-SignRP算法。
方法:首先改进了之前的DP-RP方法,然后提出了一系列的DP-SignRP算法。这些算法利用了随机投影的“符号翻转概率”的鲁棒性,即在数据u的小修改下,sign(x)只有很小的概率被翻转。这种鲁棒性导致了我们设计出“平滑翻转概率”,使得SignRP类型的算法比使用标准的随机响应机制有更好的效用。
效果:检索和分类实验表明,在所有提出的DP-RP算法中,DP-SignOPORP(其中OPORP是对著名的计数- sketch算法的改进)表现最好。由于我们的新提出的DP算法显著提高了性能,预计这将推动DP在实践中的广泛应用。最后,我们强调,由于我们的方法应用于原始数据(即特征向量),因此下游任务的隐私自然受到保护。
Data Market Design through Deep Learning
Sai Srivatsa Ravindranath Yanchen Jiang David C. Parkes
研究问题:如何设计一种数据市场,以最大化信息卖家的预期收入?
动机:在经济理论中,数据市场设计问题是一个寻找一组信号方案(统计实验)的问题,以使信息卖家的预期收入最大化。每个实验都会揭示出卖家知道的一些信息,并有相应的价格。
方法:我们引入了深度学习在设计收益最优的数据市场中的应用,以扩大我们可以理解和实现的前沿。相对于早期关于深度学习用于拍卖设计的工作,我们必须学习信号方案,而不仅仅是分配规则,并且要处理服从性约束——这些来自于对买家下游行为的建模——以及除了出价的激励约束之外。
效果:我们的实验表明,这种新的深度学习框架可以几乎精确地复制所有已知的理论解决方案,扩展到更复杂的设置,并用于建立数据市场的最优设计,并对最优设计的结构进行猜想。
ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned Samples in NLP
Lu Yan ZHUO ZHANG Guanhong Tao Kaiyuan Zhang Xuan Chen Guangyu Shen Xiangyu Zhang
研究问题:本文旨在解决自然语言处理(NLP)模型中后门攻击的问题,特别是针对更隐蔽的基于风格的攻击。
动机:当前的检测机制无法有效应对更隐蔽的后门攻击策略,如基于风格的攻击。因此,本文提出了一种创新的测试时有毒样本检测框架。
方法:我们利用先进的大型语言模型ChatGPT作为我们的改写器,并将触发词移除任务视为提示工程问题。我们采用模糊测试技术来发现能够有效消除触发词同时保持输入语义的最佳改写提示。
效果:在4种类型的后门攻击和4个不同的数据集上进行的实验表明,我们的方法在精度和召回率上都优于STRIP、RAP和ONION等基线方法。
Equal Opportunity of Coverage in Fair Regression
Fangxin Wang Lu Cheng Ruocheng Guo Kay Liu Philip S. Yu
研究问题:本研究旨在解决预测不确定性下的公平机器学习问题,以实现可靠和可信赖的决策制定。
动机:虽然"等量覆盖"的工作提出了一种考虑不确定性的公平性概念,但它不能保证在更细粒度的群体(如低收入女性)中,基于真实标签的覆盖率相等,并且在评估不确定性时存在偏见。
方法:我们提出了一种新的考虑不确定性的公平性——等机会覆盖(EOC),旨在实现两个属性:(1)具有相似结果的不同群体的覆盖率接近,(2)整个群体的覆盖率保持在预定水平。此外,预测区间应保持较窄以提供有用信息。我们提出了Binned Fair Quantile Regression(BFQR),这是一种无分布的后处理方法,可以改善任何已训练的ML模型的EOC,并保持合理的预测区间宽度。
效果:实验结果表明,我们的方法在改善EOC方面是有效的。
On the Robustness of Removal-Based Feature Attributions
Chris Lin Ian Connick Covert Su-In Lee
研究问题:现有的特征归属方法对输入和模型扰动敏感,缺乏稳健性。
动机:为了解决这一问题,本研究旨在理论分析移除式特征归属方法的稳健性。
方法:通过统一分析和推导上界,研究在输入和模型扰动情况下,完整和受损的特征归属之间的差异。
效果:实验结果验证了理论成果,并展示了其实用价值,包括通过提高模型的Lipschitz正则化来增强特征归属的稳健性。
Django: Detecting Trojans in Object Detection Models via Gaussian Focus Calibration
Guangyu Shen Siyuan Cheng Guanhong Tao Kaiyuan Zhang Yingqi Liu Shengwei An Shiqing Ma Xiangyu Zhang
研究问题:现有的触发器反转方法在对象检测模型中存在优化目标不匹配的问题,因为注入的恶意触发器对不同边界框的影响程度可能不同。
动机:为了解决这一问题,我们提出了一种新的对象检测后门检测框架Django。
方法:Django采用动态高斯加权方案,优先处理更容易受到攻击的目标边界框,并在触发器反转过程中分配适当的系数以校准优化目标。此外,我们还结合了一种新的标签建议预处理技术来提高其效率。
效果:我们在3个对象检测图像数据集、3种模型架构和2种攻击类型上评估了Django,共涉及168个模型。实验结果表明,Django优于6种最先进的基线方法,准确率提高了高达38%,并且开销减少了10倍。
Label Poisoning is All You Need
Rishi Dev Jha Jonathan Hayase Sewoong Oh
研究问题:本文旨在探讨是否仅通过篡改标签就可以成功发起后门攻击。
动机:在许多常见的机器学习场景中,训练标签由可能具有恶意的第三方提供,包括众包注释和知识蒸馏。因此,作者提出一个基本问题:我们能否仅通过篡改标签来发起成功的后门攻击?
方法:作者引入了一种名为FLIP的新型方法来设计仅基于标签的后门攻击,并在三个数据集(CIFAR-10、CIFAR-100和Tiny-ImageNet)和四种架构(ResNet-32、ResNet-18、VGG-19和视觉变换器)上展示了其优势。
效果:在CIFAR-10上,仅篡改了2%的标签,FLIP就实现了99.4%的攻击成功率,同时干净测试准确率仅下降了1.8%。这种方法建立在最近在数据集蒸馏中引入的轨迹匹配的进展之上。
Understanding Deep Gradient Leakage via Inversion Influence Functions
Haobo Zhang Junyuan Hong Yuyang Deng Mehrdad Mahdavi Jiayu Zhou
研究问题:现有的深度学习模型在分布式学习中存在严重的隐私泄露问题,如何有效地防止这种攻击并保护用户隐私。
动机:深度梯度泄露(DGL)攻击可以从梯度向量中恢复出训练图像的隐私信息,这对拥有敏感数据的客户端进行分布式学习构成了重大挑战。
方法:本文提出了一种新的逆影响函数(I$^2$F),通过隐式解决DGL问题,在恢复的图像和私有梯度之间建立了封闭形式的联系。
效果:实验证明,I$^2$F在不同的模型架构、数据集、攻击实现和基于噪声的防御上,都能有效地近似DGL。此外,I$^2$F还为有效梯度扰动方向、隐私保护的不公平性以及隐私优先的模型初始化提供了深入的见解。
Adversarially Robust Learning with Uncertain Perturbation Sets
Tosca Lechner Vinayak Pathak Ruth Urner
研究问题:现有的深度学习模型在分布式学习中存在严重的隐私泄露问题,如何有效地防止这种攻击并保护用户隐私。
动机:深度梯度泄露(DGL)攻击可以从梯度向量中恢复出训练图像的隐私信息,这对拥有敏感数据的客户端进行分布式学习构成了重大挑战。
方法:本文提出了一种新的逆影响函数(I$^2$F),通过隐式解决DGL问题,在恢复的图像和私有梯度之间建立了封闭形式的联系。
效果:实验证明,I$^2$F在不同的模型架构、数据集、攻击实现和基于噪声的防御上,都能有效地近似DGL。此外,I$^2$F还为有效梯度扰动方向、隐私保护的不公平性以及隐私优先的模型初始化提供了深入的见解。
DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification
Mintong Kang Dawn Song Bo Li
研究问题:如何有效地对抗基于扩散的净化防御机制。
动机:尽管先进的攻击无法有效破坏这种防御,但净化过程可能会引发深度计算图的问题,如梯度模糊、高内存成本和无界随机性。
方法:提出了一个统一的框架DiffAttack,包括DDPM和基于分数的方法,通过在中间扩散步骤中引入偏离重建损失来诱导不准确的密度梯度估计,以解决梯度消失/爆炸问题。同时提供了一种分段前向-后向算法,实现了内存高效的梯度反向传播。
效果:在CIFAR-10和ImageNet上,与现有的自适应攻击相比,DiffAttack的攻击效果显著,可以使模型的鲁棒性准确率下降超过20%(CIFAR-10,$\ell_infty$攻击,$\epsilon=8/255$),并在ImageNet上下降超过10%($\ell_\infty$攻击,$epsilon=4/255$)。
Training on Foveated Images Improves Robustness to Adversarial Attacks
Muhammad A Shah Aqsa Kashaf Bhiksha Raj
研究问题:深度神经网络易受对抗性攻击,如何提高其鲁棒性?
动机:人类视觉系统对低质量视觉刺激的持续暴露有助于增强其鲁棒性。
方法:开发RBlur图像转换技术,模拟人眼周边视觉的图像失真和色彩饱和度降低。
效果:使用RBlur处理过的图像训练的深度神经网络在对抗性攻击和其他非对抗性破坏下表现出更高的准确性,提高了25%。
Creating a Public Repository for Joining Private Data
James Cook Milind Shyani Nina Mishra
研究问题:如何在保护隐私的同时,发布包含敏感属性的数据集,并能够与其他具有相同敏感属性的数据集进行连接?
动机:在许多情况下,例如医院和航空公司可能希望联合确定乘坐长途飞行的人是否更容易感染呼吸道感染。如果通过共同的键控用户标识符(如电子邮件地址)连接他们的数据,他们可以确定答案,但这会破坏隐私。
方法:本文展示了医院如何生成私有草图,以及航空公司如何通过电子邮件地址与医院的草图进行私密连接。所提出的方法满足纯差分隐私,并对这些连接上的线性查询和优化问题给出近似答案。
效果:该方法是非交互式的,因此可以将草图发布到任何组织的存储库中进行连接,从而促进数据发现。该方法的准确性通过理论分析和大量实证证据得以证明。
Robust Bayesian Satisficing
Artun Saday Y. Cahit Yıldırım Cem Tekin
研究问题:分布偏移对现代机器学习的鲁棒性构成了重大挑战。
动机:为了克服这个挑战,提出了鲁棒满意策略(RS),在未指定的分布偏移下寻找一个鲁棒的解决方案,同时达到期望的效用阈值。
方法:本文专注于当真实分布和参考分布存在差异时,上下文贝叶斯优化中的RS问题。我们提出了一种新的鲁棒贝叶斯满意算法,称为RoBOS,用于噪声黑箱优化。
效果:我们的算法在一定分布偏移假设下,保证了次线性宽松遗憾。此外,我们定义了一个较弱的遗憾概念,称为鲁棒满意遗憾,我们的算法实现了与分布偏移量无关的次线性上界。通过将此方法应用于各种学习问题并与其它方法进行比较,例如分布健壮优化,证明了我们的方法的有效性。
Incentives in Federated Learning: Equilibria, Dynamics, and Mechanisms for Welfare Maximization
Aniket Murhekar Zhuowen Yuan Bhaskar Ray Chaudhury Bo Li Ruta Mehta
研究问题:如何在保护数据隐私和通信成本的前提下,实现模型的协同学习。
动机:联邦学习(FL)是一种强大的合作学习模型,但参与方在共享数据的同时可能会产生隐私和通信成本。
方法:我们构建了一个协作的联邦学习框架,每个参与者都在学习收益和数据共享成本之间寻求最优平衡。通过引入预算平衡机制和最佳响应动态,我们设计了一种新的协议FedBR-BG。
效果:实验证明,FedBR-BG在MNIST和CIFAR-10数据集上的表现优于没有额外激励的基本最佳响应协议、标准的联邦学习协议FedAvg以及最近的基线MWFed,实现了更高的$p$-mean福利。
Robust and Actively Secure Serverless Collaborative Learning
Nicholas Franzese Adam Dziedzic Christopher A. Choquette-Choo Mark R. Thomas Muhammad Ahmad Kaleem Stephan Rabanser Congyu Fang Somesh Jha Nicolas Papernot Xiao Wang
研究问题:如何实现一个安全的对等学习方案,防止恶意服务器和对抗恶意客户端。
动机:当前的协作机器学习方法在分布式数据上学习更好的模型时,存在被服务器或客户端滥用其权力的风险。
方法:提出一种点对点(P2P)学习方案,通过将任何兼容的模型更新聚合算法转化为可以对抗恶意服务器和恶意客户端的环境,来保证安全性。
效果:即使在有100万个参数的模型和标准的数据集上进行训练,该方法也显示出了很高的计算效率。
Recommender Systems with Generative Retrieval
Shashank Rajput Nikhil Mehta Anima Singh Raghunandan Hulikal Keshavan Trung Vu Lukasz Heldt Lichan Hong Yi Tay Vinh Q. Tran Jonah Samost Maciej Kula Ed H. Chi Maheswaran Sathiamoorthy
研究问题:如何通过联合训练大规模文本语料库和知识图谱来训练一种增强的语言表示模型(ERNIE)。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,本文提出利用知识图谱中的有信息量的实体来增强语言表示。
方法:采用大规模文本语料库和知识图谱进行联合训练,训练出ERNIE模型,该模型能同时充分利用词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Scalable Fair Influence Maximization
Xiaobin Rui Zhixiao Wang Jiayu Zhao Lichao Sun Wei Chen
研究问题:在给定图G、社区结构C和预算k的情况下,公平影响最大化问题旨在选择种子集S(|S|\leq k),以最大化影响传播,同时缩小不同社区之间的影响差距。
动机:尽管存在各种公平性概念,但福利公平性概念(平衡公平水平和影响传播)已显示出良好的效果。然而,优化福利公平目标函数的高效算法的缺乏限制了其在只有几百个节点的小尺度网络中的应用。
方法:本文采用福利公平目标函数来最大化所有社区的影响分数的指数加权总和。我们首先引入了一个无偏估计器来计算算术平均值的分数幂。然后,通过适应反向影响采样(RIS)方法,我们将优化问题转化为加权最大覆盖问题。我们还分析了需要多少个反向可达集来高概率地近似公平影响。此外,我们提出了一个保证1-1/e - ε近似的高效算法。
效果:实验结果表明,该方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Explainable and Efficient Randomized Voting Rules
Soroush Ebadian Aris Filos-Ratsikas Mohamad Latifian Nisarg Shah
研究问题:如何在保持解释性的同时,通过添加简单的随机化步骤来提高决策效率。
动机:随着AI工具在关键决策中的应用增长,对如何向利益相关者解释这些工具的决策方式的需求也在增加。因此,由于其内在的可解释性,投票经常被用于做出这样的决定。
方法:研究了两种简单随机化的投票规则:随机位置评分规则和随机委员会成员规则,并从理论和实证两方面证明它们在一定程度上确实同时实现了解释性和效率。
效果:实验结果表明,这两种投票规则在保持解释性的同时,也能提高决策效率。
Robust Data Valuation with Weighted Banzhaf Values
Weida Li Yaoliang Yu
研究问题:现有的基于价值的方法在数据估值中的稳定性和可靠性存在问题。
动机:为了解决现有方法在处理数据估值中的随机性时的稳定性和可靠性问题,提出了权重Banzhaf值的概念。
方法:通过引入Kronecker噪声参数化随机性,证明了独特的稳健半值位于权重Banzhaf值的家族中,同时最小化最坏情况的熵。并采用最大样本复用原则设计了一个高效的估值器来近似权重Banzhaf值。
效果:理论验证在合成和真实噪声下均有效。对于后者,拟合了固有的随机性Kronecker噪声,然后插入生成预测的最稳健半值。研究表明,面对数据估值中的过度噪声,权重Banzhaf值具有潜力。
A Path to Simpler Models Starts With Noise
Lesia Semenova Harry Chen Ronald Parr Cynthia Rudin
研究问题:Rashomon集是一组在给定数据集上表现相近的模型,而Rasho研究问题:Rashomon集是一组在给定数据集上表现相近的模型,而Rashomon比率是给定假设空间中所有模型在Rashomon集中的比例。对于刑事司法、医疗、借贷、教育等领域的表格数据,Rashomon比率通常较大,这引发了一个开放性问题,即为什么Rashomon比率往往较大。
动机:本研究旨在探讨数据生成过程以及分析师在学习过程中通常做出的选择如何决定Rashomon比率的大小。
方法:我们提出了一种机制,通过分析人员训练模型的方式,证明噪声较大的数据集会导致较大的Rashomon比率。此外,我们还引入了一个名为模式多样性的度量标准,用于捕捉Rashomon集中不同分类模式之间的预测平均差异,并解释了为什么它往往会随着标签噪声的增加而增加。
效果:我们的研究结果解释了为什么在复杂且噪声较大的数据集上,简单模型往往能与黑箱模型表现相媲美的一个重要原因。
Batchnorm Allows Unsupervised Radial Attacks
Amur Ghose Apurv Gupta Yaoliang Yu Pascal Poupart
研究问题:本文旨在探讨在无需标签的情况下,利用批量归一化深度图像识别架构中的中间潜在变量生成对抗性示例。
动机:现有的对抗性示例生成方法通常需要针对每个实例的软或硬标签,而本文提出的方法不需要依赖任何标签。
方法:通过利用批量归一化表示的几何特性和它们在超球面上的范数集中以及与高斯分布的接近程度,仅使用中间损失(仅利用角度偏差)来生成对抗性示例。
效果:实验结果表明,该方法可以成功生成对抗性示例,即使模型被转移到下游使用,泄漏的中间表示仍然可能对已部署的模型造成安全漏洞。去除批量归一化会减弱攻击效果,表明批量归一化是导致这种脆弱性的原因之一。此外,该方法在实证上也成功地针对LayerNorm进行了攻击,因此对于变换器架构(尤其是视觉变换器)具有相关性。
Optimal and Fair Encouragement Policy Evaluation and Learning
Angela Zhou
研究问题:在必须遵守人类对治疗建议的非遵从性的连续领域中,如何制定最优的政策规则?
动机:在这些领域,人们可能不会遵守治疗建议,同时,谁接受治疗和治疗效果也存在差异。例如,在社会服务中,最需要的人却未能充分利用有益服务的空白一直是一个难题。当决策者对访问和平均结果都有分配偏好时,最优决策规则会发生变化。
方法:我们研究了潜在违反正则性的情况下的识别、双重稳健估计和稳健估计。通过约束优化考虑了公平性约束,如治疗采用的人口平等和其他约束。我们的框架可以扩展到处理算法推荐,通常合理的协变量条件排除限制,使用我们的鲁棒性检查来检测推荐中缺乏积极性。我们开发了一个两阶段的在线学习算法,用于解决一般约束下的参数化政策类问题,以获得方差敏感的遗憾界限。
效果:我们在一个典型的例子中评估了改进的推荐规则,即在减少监控差异的同时,优化PSA-DMF预审风险评估工具中的监督释放推荐。
Bicriteria Multidimensional Mechanism Design with Side Information
Siddharth Prasad Nina Balcan Tuomas Sandholm
研究问题:如何设计一种能同时产生高社会福利和高收益的多维机制,并利用关于代理类型的旁信息?
动机:在实际操作中,旁信息的主要来源包括从历史代理数据上训练的机器学习模型的预测、领域专家的建议,甚至机制设计者自己的直觉。本文采用无先验假设的观点,不对旁信息的正确性、准确性或来源做出任何假设。
方法:我们设计了一个元机制,将输入的旁信息与经典的VCG机制相结合。通过基于最弱竞争者的概念(即对福利影响最小的代理)引入的新构造,我们描述了我们的元机制的福利、收益和激励特性。
效果:当我们仔细实例化时,我们的元机制同时实现了强大的福利和收益保证,参数由旁信息的错误决定。当旁信息具有高度的信息性和准确性时,我们的机制实现的收益和福利与总社会剩余相竞争,并且其性能会随着旁信息质量的降低而逐渐衰减。最后,我们将我们的元机制应用于每个代理的类型由常数个参数确定的情况。
Randomized and Deterministic Maximin-share Approximations for Fractionally Subadditive Valuations
Hannaneh Akrami Kurt Mehlhorn Masoud Seddighin Golnoosh Shahkarami
研究问题:如何为具有分数次可加性($\XOS$)估值的代理分配不可分割的项目,以保证最大最小份额($\MMS$)。
动机:对于$\XOS$估值,一些实例表明,无法保证所有代理获得比一半更好的最大最小份额。同时,已存在一种确定性分配方法,可以保证每个代理获得$0.219225$的最大最小份额。
方法:我们的研究涉及确定性和随机分配。在确定性方面,我们将分数次可加性估值的最佳近似保证提高到$3/13=0.230769$。我们在分配算法中开发了新的想法,用于分配大项目,这可能具有独立的兴趣。此外,我们还研究了随机算法和最佳两者公平保证。我们提出了一种随机分配方法,对于$\XOS$估值,其预期望最大最小份额为$1/4$,后期望最大最小份额为$1/8$。此外,我们证明了这类估值的预期望保证上限为$3/4$。
效果:实验结果表明,我们的方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
GAIA: Delving into Gradient-based Attribution Abnormality for Out-of-distribution Detection
Jinggang Chen Junjie Li Xiaoyang Qu Jianzong Wang Jiguang Wan Jing Xiao
研究问题:如何检测神经网络中的分布外(OOD)示例,以确保其在现实世界环境中的可靠性和安全性。
动机:梯度基础的解释方法在为OOD数据分配特征重要性时遇到挑战,导致解释模式出现分歧。因此,我们研究了解释梯度如何导致不确定的解释结果,并引入了两种形式的OOD检测异常:零收缩异常和通道平均异常。
方法:我们提出了GAIA,一种简单而有效的方法,将梯度异常检查和聚合相结合。
效果:GAIA在常用的CIFAR基准测试以及大规模的ImageNet-1k基准测试上的效果得到了验证。具体来说,与先进的后处理方法相比,GAIA在CIFAR10和CIFAR100上分别将平均FPR95降低了23.10%和45.41%。
Perturbation Towards Easy Samples Improves Targeted Adversarial Transferability
Junqi Gao Biqing Qi Yao Li Zhichang Guo Dong Li Yuming Xing Dazhi Zhang
研究问题:如何提高对抗性攻击的转移性,特别是在目标设置中。
动机:对抗性攻击在黑箱模型中的应用需要更有效的转移方法。
方法:通过实验和理论证明,神经网络在同一数据集上训练时,每个类别的高样本密度区域(HSDR)的性能更一致。因此,在目标设置中,向目标类别的HSDR添加扰动可以提高转移性。同时,提出了一种名为“易样本匹配攻击”(ESMA)的生成性目标攻击策略。
效果:ESMA不仅成功率高,且比当前最先进的生成性方法表现更好。此外,与当前最先进的方法相比,ESMA需要的存储空间和计算时间更少。
Distributional Model Equivalence for Risk-Sensitive Reinforcement Learning
Tyler Kastner Murat A Erdogdu Amir-massoud Farahmand
研究问题:学习风险敏感强化学习模型的问题。
动机:现有的值等价方法在风险中性环境中可以用于最优规划,但在风险敏感环境中则不适用。
方法:利用分布强化学习方法引入两种新的模型等价概念,一种通用但难以处理,另一种实用,可以选择最优规划的风险度量。
效果:通过实验证明,这些模型可以增强任何无模型的风险敏感算法,并在表格和大规模实验中展示了该方法的能力。
Posthoc privacy guarantees for collaborative inference with modified Propose-Test-Release
Abhishek Singh Praneeth Vepakomma Vivek Sharma Ramesh Raskar
研究问题:如何通过链接神经网络的局部Lipschitz常数和局部敏感性,为任意训练的神经网络提供形式化的隐私保证。
动机:随着对数据隐私问题的日益关注,现有的工作提出了协作推理(CI)来学习在与不受信任的服务提供者共享敏感用户数据之前保护隐私的编码。
方法:我们开发了一个新的框架,通过将神经网络的局部Lipschitz常数与其局部敏感性联系起来,为其提供形式化的隐私保证。为了使用局部敏感性保证隐私,我们将Propose-Test-Release(PTR)框架进行扩展,使其适用于神经网络查询。
效果:我们在真实世界数据集上验证了我们框架的有效性,并阐明了对抗性表示学习(ARL)在改善隐私-效用权衡中的作用。
Human-Aligned Calibration for AI-Assisted Decision Making
Nina L. Corvelo Benz Manuel Gomez Rodriguez
研究问题:本文旨在解决二元分类器在提供决策支持时,其置信值往往无法帮助决策者准确判断预测结果的问题。
动机:虽然二元分类器可以提供预测标签和置信值,但现有的证据表明,决策者往往难以仅凭置信值来判断预测结果的准确性。
方法:本文首先提出在某些数据分布下,即使最优的决策者也可能无法仅通过常规的置信值来找出最优决策策略。然后,我们证明了如果置信值满足与决策者对自己预测的信心的对齐属性,那么总是存在一个最优决策策略,使得决策者对预测的信任度是置信值的单调函数,从而有助于发现这个策略。
效果:实验证明,当分类器的置信值满足与决策者对自己预测的信心的对齐属性时,可以帮助决策者做出更好的决策。
IBA: Towards Irreversible Backdoor Attacks in Federated Learning
Dung Thuy Nguyen Tuan Minh Nguyen Anh Tuan Tran Khoa D Doan KOK SENG WONG
研究问题:如何在联邦学习中进行后门攻击,以在不损害终端设备个人敏感数据的情况下训练机器学习模型。
动机:现有的联邦学习中的后门攻击方法存在局限性,如需要控制大量客户端或了解其他诚实客户端的数据分布,触发器往往明显可见,且效应会随攻击者退出训练过程而迅速稀释。
方法:提出一种新的联邦学习后门攻击框架——不可逆后门攻击(IBA),该框架联合学习最优和视觉上难以察觉的触发器,并逐渐将后门植入全局模型中,以提高攻击的效率和持久性。
效果:在MNIST、CIFAR-10和Tiny ImageNet等基准数据集上评估了所提出的攻击框架,取得了高成功率,同时绕过了现有的后门防御措施,与其他后门攻击相比,实现了更有效、更隐蔽和更持久的后门效果。
Certification of Distributional Individual Fairness
Matthew Robert Wicker Vihari Piratla Adrian Weller
研究问题:如何为神经网络的算法公平性提供形式保证。
动机:对机器学习算法进行社会负责的部署,为其提供算法公平性的正式保证至关重要。
方法:提出了一种新的关于个体公平性的凸近似方法,该方法可以显著降低提供局部个体公平性正式保证的计算成本。同时,还提出了分布个体公平性的认证方法,确保在给定的经验分布和所有在γ-Wasserstein球内的分布中,神经网络都有保证的个体公平预测。
效果:利用拟凸优化的发展,我们为分布个体公平性提供了新颖且高效的认证边界。实验结果表明,我们的方法能够对比先前工作大几个数量级的神经网络进行认证和规范化。此外,我们还研究了真实世界的分布变化,发现我们的边界是一个可扩展、实用且可靠的IF保证来源。
Attacks on Online Learners: a Teacher-Student Analysis
Riccardo Giuseppe Margiotta Sebastian Goldt Guido Sanguinetti
研究问题:现有的预训练语言模型缺乏对丰富的结构化知识的利用,本文旨在通过结合大规模文本语料库和知识图谱来训练一种增强的语言表示模型(ERNIE)。
动机:知识图谱中的有信息量的实体可以通过外部知识来增强语言表示,以提升模型的语义理解能力。
方法:采用大规模文本语料库和知识图谱进行联合训练,ERNIE模型能够同时充分利用词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Use perturbations when learning from explanations
Juyeon Heo Vihari Piratla Matthew Robert Wicker Adrian Weller
研究问题:本文旨在解决机器学习中模型解释的问题,即如何通过人类提供的解释来确保模型的预测是正确的。
动机:现有的机器学习解释方法依赖于局部模型解释和强模型平滑,这导致性能不佳。
方法:我们将机器学习解释重新定义为鲁棒性问题,其中人类解释指定了一个低维流形,可以从中提取扰动。我们展示了这种方法在理论上和实验上如何减轻对强模型平滑的需求。
效果:我们的方法在各种实现鲁棒性的方法上都取得了改进,并在合成和现实世界的基准测试上达到了最先进的结果。
Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense
Zunzhi You Daochang Liu Bohyung Han Chang Xu
研究问题:本文旨在解决预训练的深度学习模型在对抗性攻击下易受攻击的问题,以及探索如何通过自监督学习提供对抗性鲁棒性。
动机:虽然最新的掩蔽图像建模(MIM)已经在自我监督视觉表示学习中取得显著进展,但其预训练模型与大多数深度神经网络方法一样,对对抗性攻击仍然脆弱,限制了其实际应用。
方法:作者发现,作为MIM的一个简单变体,采用去噪作为预任务的噪声图像建模(NIM)能很好地重建被严重破坏的噪声图像。因此,作者提出一种名为De^3的对抗防御方法,利用预训练的去噪解码器来增强对抗鲁棒性。
效果:实验结果表明,由于其有效的去噪能力,NIM在对抗鲁棒性方面优于MIM。此外,NIM提供的防御性能与对抗性训练相当,同时具有额外的可调优优势。
Locally Invariant Explanations: Towards Stable and Unidirectional Explanations through Local Invariant Learning
Amit Dhurandhar Karthikeyan Natesan Ramamurthy Kartik Ahuja Vijay Arya
研究问题:如何提供一种简单、稳定且直观的高保真局部解释方法,用于解释黑箱模型。
动机:尽管存在许多变体,但现有的局部可解释模型往往无法产生高保真、稳定和直观的解释。
方法:提出一种受不变风险最小化原则启发的模型无关局部解释方法,该方法基于博弈论公式,通过消除在需要解释的例子附近函数梯度突然改变符号的特征,来提供高保真的局部解释。
效果:实验表明,该方法在表格、图像和文本数据上的效果优于LIME,在某些情况下甚至与从数据流形中采样的真实邻居相当。此外,该方法训练简单高效,无需访问如部分因果图等边信息即可确定黑箱模型的局部决策的稳定输入特征。
Connecting Certified and Adversarial Training
Yuhao Mao Mark Niklas Mueller Marc Fischer Martin Vechev
研究问题:如何训练出具有可靠鲁棒性的神经网络。
动机:现有的对抗性训练方法优化了最坏情况损失的下界近似,导致认证不足,而可靠的认证训练方法优化了宽松的上界近似,导致过度正则化和较差的标准准确性。
方法:我们提出了TAPS,一种(非可靠的)认证训练方法,结合IBP和PGD训练来优化更精确的(尽管不一定是可靠的)最坏情况损失近似值,减少过度正则化并提高认证和标准准确性。
效果:实证研究表明,TAPS在许多情况下达到了新的最先进的水平,例如,在TinyImageNet上对$\ell_infty$扰动的半径$\epsilon=1/255$达到$22\%$的认证准确性。我们的实现和网络在https://github.com/eth-sri/taps上公开。
Decision Tree for Locally Private Estimation with Public Data
Yuheng Ma Han Zhang Yuchao Cai Hanfang Yang
研究问题:如何利用少量公开数据提升私有估计的性能。
动机:目前的私有估计方法在性能上有待提高,我们希望通过引入少量公开数据来改善这个问题。
方法:我们提出了一种名为局部差分隐私决策树(LPDT)的高效算法进行差分隐私回归。首先,我们使用公开数据生成一个决策树分区,然后根据这个分区进行私有的估计器拟合。
效果:理论分析和实验证明,LPDT具有优越的性能,其收敛速度比不使用公开数据的差分隐私估计方法快,且在公开数据与私有数据差异较大的情况下仍能保持有效。
Hierarchical Randomized Smoothing
Yan Scholten Jan Schuchardt Aleksandar Bojchevski Stephan Günnemann
研究问题:如何使模型在面对复杂真实世界数据时,不仅能保证高准确度,还能对输入的小变动具有鲁棒性?
动机:现有的随机平滑方法虽然能保证模型的鲁棒性,但在面对只针对部分实体的恶意攻击时,其效果并不理想。
方法:提出分层随机平滑方法,通过在对象的部分实体上添加随机噪声,以更有针对性的方式进行平滑处理。
效果:实验证明,分层随机平滑方法在图像和节点分类等任务中,既能保证高准确度,又能显著提高模型的鲁棒性。
Understanding and Improving Ensemble Adversarial Defense
Yian Deng Tingting Mu
研究问题:尽管对抗防御中的集成策略在实践中取得了成功,但为何对抗训练的分类器集成比单一分类器更强大,其理论解释尚不清楚。
动机:为了填补这一空白,我们开发了一种新的错误理论,专门用于理解集成对抗防御。
方法:我们提出了一种有效的方法来改进集成对抗防御,名为交互式全局对抗训练(iGAT)。该方法包括(1)一个概率分配规则,选择性地将全局挑战性的对抗性样本分配给不同的基本分类器,以及(2)一个正则化项,以解决基本分类器的最严重的弱点。
效果:在各种现有的集成对抗防御技术中进行测试,iGAT能够通过高达17%的性能提升来提高它们的表现,使用CIFAR10和CIFAR100数据集在白盒和黑盒攻击下进行评估。
H-nobs: Achieving Certified Fairness and Robustness in Distributed Learning on Heterogeneous Datasets
Guanqiang Zhou Ping Xu Yue Wang Zhi Tian
研究问题:本文旨在解决现代分布式学习系统中公平性和鲁棒性设计的两个重要目标,包括(i)公平性和鲁棒性的结合为何困难?(ii)能否为公平性和鲁棒性的双属性建立理论保证?(iii)在系统中融入鲁棒性时,公平性需要牺牲多少?
动机:尽管已有一些尝试同时实现公平性和鲁棒性的工作,但这个方向的一些关键方面仍然未被充分探索。
方法:作者首先将数据异质性确定为公平性和鲁棒性结合的主要难点,然后提出了一个名为H-nobs的公平和鲁棒框架,该框架通过采用两个关键组件——公平促进的目标函数和简单鲁棒聚合方案(称为基于规范的筛选,NBS)来实现公平性和鲁棒性的认证。
效果:作者推导了H-nobs在非凸、凸和强凸学习模型情况下的三个收敛定理,为公平性和鲁棒性提供了理论保证。此外,首次从实证上研究了鲁棒机制(NBS)对H-nobs公平性性能的影响。
Towards Unbounded Machine Unlearning
Meghdad Kurmanji Peter Triantafillou Jamie Hayes Eleni Triantafillou
研究问题:如何从训练过的神经网络中删除一部分训练集,即深度机器取消学习的问题。
动机:这个问题具有时效性,并且在许多应用中都有用,包括消除偏见(RB)、解决混淆(RC)(由训练模型中的误标记数据引起)以及允许用户行使他们的“被遗忘权”以保护用户隐私(UP)。
方法:本文首次针对不同的应用(RB、RC、UP)研究取消学习,认为每个应用都有自己的期望、“遗忘”的定义和相关的遗忘质量度量标准。对于UP,我们提出了一种新颖的针对强成员推理攻击的适应方法。我们还提出了SCRUB,这是一种新的取消学习算法,它是唯一一个在不同应用程序依赖的度量标准下始终在遗忘质量上表现优异的方法。同时,SCRUB在测量模型效用(即保留数据的准确率和泛化能力)的指标上也始终处于领先地位,并且比之前的工作更有效。
效果:通过与先前最先进的技术进行全面的实证评估,证明了上述观点。
BadTrack: A Poison-Only Backdoor Attack on Visual Object Tracking
Bin Huang Jiaqian Yu Yiwei Chen Siyang Pan Qiang Wang Zhi Wang
研究问题:本文旨在揭示知识图谱中的有信息量的实体可以通过外部知识来增强语言表示,并研究问题:本文旨在揭示知识图谱中的有信息量的实体可以通过外部知识来增强语言表示,并利用这一特性提出一种新的针对视觉目标跟踪(VOT)的毒丸式后门攻击。
动机:目前的预训练语言模型和视觉目标跟踪算法都存在对外部知识的利用不足的问题。
方法:通过在训练数据中添加预设触发模式,使得触发模式几乎只出现在提取的负面例子中,从而实施毒丸式后门攻击。
效果:实验结果表明,这种攻击可以显著降低两种流式的Siamese和一种流式的Transformer跟踪器在被污染数据上的性能,同时在清洁数据上与良性跟踪器获得相当的性能。
(Provable) Adversarial Robustness for Group Equivariant Tasks: Graphs, Point Clouds, Molecules, and More
Jan Schuchardt Yan Scholten Stephan Günnemann
研究问题:传统的机器学习模型在输入扰动下保持稳定,但现实世界的任务如分子性质预测或研究问题:传统的机器学习模型在输入扰动下保持稳定,但现实世界的任务如分子性质预测或点云分割具有固有的等变特性,如旋转或置换等变。
动机:对于这些任务,即使输入的扰动有大的范数,也不一定会改变输入的语义内容。同时,有些情况下模型的预测需要明确地改变。因此,提出了一个关于对抗性鲁棒性的概念,以考虑任务的等变性。
方法:通过选择与任务等变性相匹配的模型和认证传统的对抗性鲁棒性来实现可证明的鲁棒性。对于许多模型,如连续等变的模型,认证方法是不可用的。因此,开发了等变保持随机平滑框架,实现了架构无关的认证。
效果:首次为同构等变任务(如节点分类)推导出第一个特定于架构的图编辑距离证书,即针对同构等变任务的声音鲁棒性保证。总的来说,声音的鲁棒性概念是未来在鲁棒性和几何机器学习交叉领域的工作的重要前提。
Minimax Risks and Optimal Procedures for Estimation under Functional Local Differential Privacy
Bonwoo Lee Jeongyoun Ahn Cheolwoo Park
研究问题:如何在保证数据隐私的同时,最大化统计数据的效用。
动机:随着对数据隐私的关注日益增长,差分隐私(DP)作为一种基本概念出现,旨在通过确保个体在数据分析中的不可区分性来保证隐私。局部差分隐私(LDP)是一种严格的DP类型,需要在将数据发送给收集器之前对个体数据进行私有化,从而消除了需要信任第三方收集数据的需求。
方法:本研究通过分析单变量均值估计和非参数密度估计的最小最大风险,探讨了功能LDP如何保护统计效用。我们利用功能LDP机制的收缩性质和经典的信息理论边界,推导出私有的最小最大下界。
效果:理论研究发现,可以在统计效用和隐私级别之间建立一种可解释的、连续的平衡,这是在ε-LDP框架下无法实现的。此外,我们建议基于高斯LDP(一种功能LDP)的最小最大最优机制,并通过数值研究证明它们优于在ε-LDP下得出的对应机制。这项工作的理论和实证发现表明,高斯LDP应被视为LDP的一种可靠标准。
LEACE: Perfect linear concept erasure in closed form
Nora Belrose David Schneider-Joseph Shauli Ravfogel Ryan Cotterell Edward Raff Stella Biderman
研究问题:如何从语言模型中移除特定特征,以提高公平性和可解释性。
动机:防止分类器使用性别或种族等特征,提高模型的公平性和可解释性。
方法:提出一种名为LEAst-squares Concept Erasure(LEACE)的闭型方法,可以最小化改变表示的同时,防止所有线性分类器检测到某一概念。
效果:通过在大型语言模型上应用概念擦洗技术,从网络的每一层中删除目标概念信息,证明了该方法在测量语言模型对部分词性信息的依赖性以及减少BERT嵌入中的性别偏见方面的有效性。
Strategic Behavior in Two-sided Matching Markets with Prediction-enhanced Preference-formation
Stefania Ionescu Yuhao Du Kenneth Joseph Aniko Hannak
研究问题:在缺乏监管的交易所中,如何匹配代理双方?
动机:在没有规范交易所的情况下,已经存在了用于匹配代理双方的双向匹配市场。在这种情况下,形成偏好既困难又关键。
方法:本文提出了一种名为对抗性互动攻击的新型策略行为,并构建了一个正式的经济模型,该模型捕捉了旨在协助代理的预测机制和用于配对它们的匹配机制之间的反馈循环。
效果:实验结果表明,返回市场的代理可以通过使用对抗性互动攻击获得好处,并且随着对预测的信任和准确性的增加,他们可以获得越来越多的收益。此外,这种攻击还增加了学生群体中的不平等现象。
Uncertainty Estimation for Safety-critical Scene Segmentation via Fine-grained Reward Maximization
Hongzheng Yang Cheng Chen Yueyao Chen Markus Scheppach Hon Chi Yip Qi Dou
研究问题:如何提高深度分割模型在安全关键场景(如医疗应用)中的可靠性部署。
动机:现有的不确定性估计方法由于缺乏对预测风险和模型置信度的明确指导,其效果有限。
方法:提出一种新的细粒度奖励最大化(FGRM)框架,通过直接利用与奖励函数相关的不确定性度量和基于强化学习的模型调整算法进行不确定性估计。设计了一个新的不确定性估计奖励函数,并使用该函数来微调一个经过证据学习预训练的分割模型,以校准预测风险。
效果:在两个大型安全关键手术场景分割数据集上进行了实验,结果表明,该方法在所有不确定性估计的校准指标上都优于最先进的方法,同时保持了高的任务分割准确性。
Counterfactually Fair Representation
Zhiqun Zuo Mohammad Mahdi Khalili Xueru Zhang
研究问题:在高风险应用中,机器学习模型可能对受保护的社会群体产生偏见,如何公平地处理这一问题?
动机:为了解决机器学习模型在高风险应用中的偏见问题,本文关注了反事实公平性(CF)这一公平性概念。
方法:本文提出了一种新的算法,该算法使用所有可用的特征来训练模型,并从理论上和实证上证明了这种方法可以满足CF。
效果:实验结果表明,使用这种方法训练的模型能够满足CF的要求。
Concept Distillation: Leveraging Human-Centered Explanations for Model Improvement
Avani Gupta Saurabh Saini P J Narayanan
研究问题:如何通过利用人类中心的概念解释来理解和减少神经网络的偏差?
动机:目前的可解释性研究主要关注于人类中心的概念解释,而我们的目标是通过训练前的概念损失来减少模型的偏差。
方法:我们将概念激活向量(CAVs)从后验分析扩展到先验训练,通过使用额外的“概念损失”进行微调来减少模型偏差。我们还引入了“概念蒸馏”,这是一种使用预训练的知识模型作为教师的方法,用于定义丰富和有效的概念。
效果:我们的方法可以提高模型的可解释性,减少偏差,并引入先验知识。我们在几个分类问题上应用了概念敏感的训练,结果显示这种方法可以有效地减少模型的偏差。
RETVec: Resilient and Efficient Text Vectorizer
Elie Bursztein Marina Zhang Owen Skipper Vallis Xinyu Jia Alexey Kurakin
研究问题:如何设计一种高效、有弹性且多语言的文本向量化方法,用于基于神经网络的文本处理。
动机:现有的文本向量化方法在面对拼写错误和字符级对抗攻击时表现不佳。
方法:RETVec结合了一种新的字符编码和可选的小嵌入模型,将单词嵌入到256维的向量空间中。其嵌入模型通过成对度量学习进行预训练,以提高对拼写错误和字符级对抗攻击的抵抗力。
效果:实验结果表明,RETVec在流行的模型架构和数据集上表现出色,能产生具有竞争力的多语言模型,并显著提高了对拼写错误和对抗性文本攻击的抵抗力。
Stability Guarantees for Feature Attributions with Multiplicative Smoothing
Anton Xue Rajeev Alur Eric Wong
研究问题:解释机器学习模型的方法往往无法提供任何形式上的保证,可能无法反映底层的决策过程。
动机:本研究将稳定性分析为可靠的特征归因方法的一种属性。
方法:我们证明了如果模型在特征遮蔽方面具有足够的Lipschitz连续性,那么放宽的稳定性是有保障的。我们开发了一种名为乘法平滑(MuS)的平滑方法来实现这样的模型。
效果:我们在视觉和语言模型上评估了MuS,并与各种特征归因方法(如LIME和SHAP)进行了集成,证明MuS赋予了特征归因以非平凡的稳定性保证。
Class-Conditional Conformal Prediction with Many Classes
Tiffany Ding Anastasios Nikolas Angelopoulos Stephen Bates Michael Jordan Ryan Tibshirani
研究问题:如何在特定类别的测试点上,获得更强的预测集包含真实标签的概率保证?
动机:在许多分类问题中,我们希望对特定类别的测试点,预测集包含真实标签的概率与用户选择的概率相同。
方法:提出一种称为聚类式适应性预测的方法,将具有“相似”适应性得分的类别进行聚类,并在集群级别执行适应性预测。
效果:通过在四个图像数据集上进行实证评估(最多有1000个类别),我们发现聚类式适应性预测通常在类别条件覆盖和集合大小指标上优于现有方法。
Optimal Unbiased Randomizers for Regression with Label Differential Privacy
Ashwinkumar Badanidiyuru Badih Ghazi Pritish Kamath Ravi Kumar Ethan Jacob Leeman Pasin Manurangsi Avinash V Varadarajan Chiyuan Zhang
研究问题:如何在标签差分隐私(DP)约束下训练回归模型。
动机:在保护用户隐私的同时,提高模型的性能和效果。
方法:提出一种新的标签随机化器,利用标签偏差和方差之间的权衡来构建更好的标签随机化器,根据私有估计的标签先验分布进行操作。
效果:这些随机化器在多个数据集上实现了最先进的隐私-效用权衡,强调了在用标签DP训练神经网络时减少偏差的重要性。同时,还提供了有关最优无偏随机化器结构性质的理论结果。
What Distributions are Robust to Indiscriminate Poisoning Attacks for Linear Learners?
Fnu Suya Xiao Zhang Yuan Tian David Evans
研究问题:本研究旨在探讨线性学习器在面对无差别投毒攻击时的抵抗能力,即研究问题:本研究旨在探讨线性学习器在面对无差别投毒攻击时的抵抗能力,即通过向训练数据中注入少量精心设计的示例,使模型在测试时产生更高的错误率。
动机:观察到某些数据集上的线性学习器即使没有任何防御措施也能抵抗已知的最佳攻击,我们进一步研究数据集是否对线性学习器的无差别投毒攻击具有固有的抵抗力。
方法:对于理论上的高斯分布,我们严格地描述了最优投毒攻击的行为,定义为在给定投毒预算下达到最大模型风险的投毒策略。
效果:结果证明,如果类别间的数据分布分离良好且方差小,以及包含所有允许投毒点的约束集的大小也小,那么线性学习器确实可以抵抗无差别投毒。这些发现在很大程度上解释了最先进的投毒攻击在基准数据集上对线性学习器的攻击性能的巨大差异,为理解一些学习任务容易受到数据投毒攻击的根本原因迈出了重要的一步。
Rethinking Incentives in Recommender Systems: Are Monotone Rewards Always Beneficial?
Fan Yao Chuanhao Li Karthik Abinav Sankararaman Yiming Liao Yan Zhu Qifan Wang Hongning Wang Haifeng Xu
研究问题:如何设计在线内容推荐平台的奖励机制,以引导创作者的竞争朝着长期可取的福利结果发展。
动机:当前平台广泛采用的奖励机制会引发创作者之间的竞争,影响他们的创作选择和内容分布,进而影响系统福利。
方法:本文首先揭示了一类被广泛采用的“基于优点的单调机制”存在的基本限制,即它们会导致最优福利的损失。然后提出了“逆向奖励机制”,并证明由此产生的竞争博弈具有潜在的博弈结构,可以自然地引导创作者采取策略性行为,优化潜在函数,以达到任何给定的福利指标。
效果:实验结果表明,逆向奖励机制在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Counterfactually Comparing Abstaining Classifiers
Yo Joong Choe Aditya Gangrade Aaditya Ramdas
研究问题:如何评估和比较弃权分类器,特别是在其弃权预测上。
动机:在高风险决策问题上,弃权分类器越来越受欢迎,因为它们可以保留不确定的预测以提高其可靠性和安全性。然而,我们缺乏一种原则性的方法来评估黑箱弃权分类器在其弃权预测上会做出什么预测。这些缺失的预测在它们最终被利用时很重要,无论是直接还是作为失败模式的备份选项。
方法:我们将弃权预测视为缺失数据,引入了一种新颖的方法和视角来评估和比较弃权分类器。我们的评估方法围绕着定义弃权分类器的反事实分数,即如果不允许分类器弃权,那么分类器的预期性能。我们指定了反事实分数可识别的条件:如果弃权是随机的,并且评估数据与训练数据独立(确保预测是随机丢失的),则该分数是可识别的。
效果:通过观察性因果推理工具,我们在模拟和真实数据实验中开发了非参数和双重鲁棒方法来有效估计这一数量。
Explain Any Concept: Segment Anything Meets Concept-Based Explanation
Ao Sun Pingchuan Ma Yuanyuan Yuan Shuai Wang
研究问题:如何提高深度神经网络的可解释性,以增强人类对其黑箱内部的理解。
动机:主流的基于像素的XAI方法通过识别重要的像素来解释DNN决策,而新兴的概念基XAI则通过形成概念(如图像中的头部)的解释来探索。然而,像素通常难以解释,且对XAI方法的不精确性敏感,而先前工作中的“概念”则需要人工注释或仅限于预定义的概念集。
方法:本文首次探索使用SAM来增强概念基XAI。我们提供了一个有效且灵活的概念基解释方法,即解释任何概念(EAC),用任何概念来解释DNN决策。
效果:我们在两个流行的数据集(ImageNet和COCO)上进行评估,结果显示EAC在常用的XAI方法上表现出了高度的鼓励性能。
HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text
Han Liu Zhi Xu Xiaotong Zhang Feng Zhang Fenglong Ma Hongyang Chen Hong Yu Xianchao Zhang
研究问题:针对文本的黑箱硬标签对抗攻击是一个实际且具有挑战性的任务,因为文本研究问题:针对文本的黑箱硬标签对抗攻击是一个实际且具有挑战性的任务,因为文本数据空间本质上是离散的和非可微分的,只能访问预测的标签。
动机:现有的方法依赖于复杂的启发式算法或不可靠的梯度估计策略,容易陷入局部最优,并且不可避免地消耗大量的查询,因此在有限的查询预算下难以生成具有高语义相似度和低扰动率的满意的对抗样本。
方法:我们提出了一个简单而有效的框架来在黑箱硬标签攻击场景下生成高质量的文本对抗样本,名为HQA-Attack。具体来说,HQA-Attack首先随机初始化一个对抗样本,然后尽可能多地将原始单词替换回来,从而缩小扰动率。接着,它利用剩余更改单词的同义词集进一步优化对抗样本,同时满足提高语义相似度和满足对抗条件的方向。此外,在优化过程中,它会为每个更改的单词搜索一个过渡同义词,从而避免遍历整个同义词集并在一定程度上减少查询数量。
效果:我们在五个文本分类数据集、三个自然语言推理数据集和两个真实世界API上进行了广泛的实验,结果表明提出的HQA-Attack方法显著优于其他强大的基线方法。
Discriminative Feature Attributions: Bridging Post Hoc Explainability and Inherent Interpretability
Usha Bhalla Suraj Srinivas Himabindu Lakkaraju
研究问题:如何提高机器学习模型的解释性,使其能更好地解释模型行为。
动机:当前存在的两种策略——后验解释方法和固有可解释模型,都存在一些问题,如后验解释可能不准确,而固有可解释模型的预测性能较差。
方法:提出Distractor Erasure Tuning(DiET)方法,通过调整黑箱模型以增强对干扰特征擦除的鲁棒性,从而提供有区分性和忠实的特征归因。
效果:在半合成和真实世界数据集上的大量实验表明,DiET产生的模型(1)接近它们要解释的原黑箱模型,(2)产生与构造的近似真实值相匹配的解释。
Towards Evaluating Transfer-based Attacks Systematically, Practically, and Fairly
Qizhang Li Yiwen Guo Wangmeng Zuo Hao Chen
研究问题:深度神经网络的对抗性漏洞由于在实际应用中存在安全风险,引起了广泛关注。
动机:由于对抗性示例的可转移性,越来越多的基于转移的方法被开发出来,以欺骗黑箱DNN模型,这些模型的架构和参数无法访问。然而,目前缺乏一个标准化的基准来系统、公平和实际地比较这些方法。
方法:我们建立了一个基于转移的攻击基准(TA-Bench),实现了30+种方法。我们在ImageNet上的10个流行的替代/受害者模型上对这些方法进行了全面评估和比较。
效果:我们对这些方法的有效性有了新的认识,并为未来的评估提供了指导方针。
A Randomized Approach to Tight Privacy Accounting
Jiachen T. Wang Saeed Mahloujifar Tong Wu Ruoxi Jia Prateek Mittal
研究问题:如何在差分隐私(DP)中对隐私泄露进行边界限制,即隐私核算,是一个关键挑战。
动机:在DP中,虽然隐私参数(ε或δ)容易估计,但难以进行边界限制。
方法:本文提出了一种新的差分隐私范式——估计-验证-发布(EVR),通过将隐私参数的估计转化为形式化的保证,解决了在DP组合中为隐私参数提供严格上限的挑战。
效果:实验结果表明,EVR范式提高了隐私保护机器学习的效用-隐私权衡。
Rethinking the Backward Propagation for Adversarial Transferability
Xiaosen Wang Kangheng Tong Kun He
研究问题:如何提高对抗性样本的转移性,以误导无法访问的黑箱模型,从而攻击现实世界的应用。
动机:现有的转移式攻击方法可以提高对抗性样本的转移性,但通常忽视了代理模型的角色。
方法:通过识别非线性层(如ReLU、max-pooling等)在反向传播过程中会截断梯度,导致输入图像相对于损失函数的梯度不精确,我们提出了一种新的方法——后向传播攻击(BPA)。该方法采用非单调函数作为ReLU的导数,并结合了带有温度的softmax来平滑max-pooling的导数,从而减少梯度反向传播过程中的信息损失。
效果:在ImageNet数据集上的实验结果表明,我们的方法不仅显著提高了对抗性样本的转移性,而且对现有的转移式攻击具有通用性。
Functional Renyi Differential Privacy for Generative Modeling
Dihong Jiang Sun Sun Yaoliang Yu
研究问题:如何量化数据隐私,并开发实用的保护机制?
动机:为了提供更严格的数据隐私量化和更灵活的隐私保护机制。
方法:将Renyi差分隐私(RDP)扩展到无穷维函数输出空间,开发必要的工具如子采样高斯机制、组合和后处理规则等。
效果:通过在再生核希尔伯特空间(RKHS)中应用f-RDP,实现了一种差分隐私生成模型(DPGM),在隐私-效用权衡方面取得了显著改进。
On the Relationship Between Relevance and Conflict in Online Social Link Recommendations
Yanbang Wang Jon Kleinberg
研究问题:在线社交网络中,链接推荐是用户发现他们可能认识的人的相关链接的一种方式,从而可能增加他们在平台上的参与度。然而,添加链接到社交网络也可能影响网络中的冲突水平(以极化和分歧表示)。迄今为止,我们对这两个链接形成的影响之间的关系了解甚少:高相关性和减少冲突的目标是一致的,还是用户最有可能接受的链接与具有最大潜在冲突减少能力的链接有根本的不同?
动机:我们首次使用最近流行的Friedkin-Johnsen观点动态模型来分析这个问题。
方法:我们首先展示了添加链接如何改变意见冲突水平的结果,然后解释了这种变化与添加链接的结构特征的关系。然后,我们在真实数据上对实现最大减少和最高相关性的链接集之间的冲突减少差距进行了描述。
效果:我们发现,一些更准确的算法实际上并没有导致更好的冲突减少。我们的工作表明,为增加用户参与而推荐的社交链接可能并不像人们想象的那样引发冲突。
UltraRE: Enhancing RecEraser for Recommendation Unlearning via Error Decomposition
Yuyuan Li Chaochao Chen Yizhao Zhang Weiming Liu Lingjuan Lyu Xiaolin Zheng Dan Meng Jun Wang
研究问题:随着对机器学习模型隐私问题的日益关注,如何在保证模型效用和学习效率的同时实现推荐系统的完全遗忘。
动机:在法规要求公司开发非歧视性机器学习系统并赋予个人被遗忘权的背景下,研究如何提高推荐系统的遗忘能力。
方法:从集成的角度重新思考现有的RecEraser框架,针对其冗余、相关性和组合三个潜在损失进行优化,提出了名为UltraRE的新框架。
效果:通过在三个真实数据集上的大量实验,证明了UltraRE的有效性。
TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models
Jiaqi Xue Mengxin Zheng Ting Hua Yilin Shen Yepeng Liu Ladislau Bölöni Qian Lou
研究问题:大型语言模型(LLMs)在各种应用中被用作机器学习服务和接口工具,但其安全性,特别是对抗性和Trojan攻击方面的问题,尚未得到充分研究。
动机:本文提出了TrojLLM,一个自动的、黑箱框架,用于有效地生成通用且隐蔽的触发器。当这些触发器被纳入输入数据时,可以恶意操纵LLMs的输出。
方法:该框架支持在离散提示中嵌入Trojans,提高了触发器攻击的整体效果和精度。具体来说,我们提出了一种触发器发现算法,通过使用少量样本数据查询受害者基于LLM的API来生成各种输入的通用触发器。此外,我们还引入了一种新颖的渐进式Trojan污染算法,设计出具有有效性和可转移性的被污染提示。
效果:实验和结果显示,TrojLLM能够在包括GPT-3.5和GPT-4在内的真实世界黑箱LLM API中有效地将Trojans插入文本提示中,同时在干净的测试集上保持出色的性能。我们的工作揭示了当前模型的潜在安全风险,并提供了潜在的防御方法。
State2Explanation: Concept-Based Explanations to Benefit Agent Learning and User Understanding
Devleena Das Sonia Chernova Been Kim
研究问题:如何为非AI专家提供可理解的AI决策解释,特别是在序列决策中。
动机:随着更多的非AI专家在日常任务中使用复杂的AI系统,开发可被他们理解的AI决策解释方法的需求日益增加。
方法:我们提出了一个统一的框架State2Explanation (S2E),该框架通过学习状态-动作对和基于概念的解释之间的联合嵌入模型,来同时进行奖励塑造和向最终用户提供解释。
效果:在Connect 4和Lunar Lander的实验验证中,S2E成功地提供了双重效益,不仅成功地指导了奖励塑造和提高了代理的学习速率,而且在部署时显著提高了最终用户的任务性能。
Online Ad Procurement in Non-stationary Autobidding Worlds
Jason Cheuk Nam Liang Haihao Lu Baoyu Zhou
研究问题:在线广告商如何通过自动竞价平台有效优化广告杠杆决策。
动机:由于非稳定因素如季节性模式、系统偶尔的损坏和市场趋势,广告商在实际操作中难以有效地优化广告杠杆决策。
方法:提出了一个在线学习框架,引入了一个多维决策变量、强化反馈和长期不确定约束的原-对偶算法进行在线决策。
效果:实验结果表明,该算法在许多情况下都能实现低遗憾,即使在不知道哪个过程是真实情况的情况下,也能在生成采购结果的过程中实现随机、对抗性、对抗性破坏、周期性和各态历经的效果。最后,强调了所提出的算法和理论结果不仅适用于在线广告应用。
VeriX: Towards Verified Explainability of Deep Neural Networks
Min Wu Haoze Wu Clark Barrett
研究问题:本文旨在提出一种名为VeriX的系统,用于生成机器学习模型决策边界的最佳鲁棒解释和反事实。
动机:为了提高机器学习模型的解释性和可信度,需要能够产生最优鲁棒解释和反事实的方法。
方法:通过使用约束求解技术和基于特征级敏感性排序的启发式方法,迭代地构建解释和反事实。
效果:在图像识别基准测试和自动驾驶飞机滑行的实际场景中评估了该方法。
Robust Concept Erasure via Kernelized Rate-Distortion Maximization
Somnath Basu Roy Chowdhury Nicholas Monath Kumar Avinava Dubey Amr Ahmed Snigdha Chaturvedi
研究问题:如何从分布式表示中删除一个属性,同时尽可能保留原始表示空间中的其他信息。
动机:现有的分布式表示会混淆数据实例的多个属性或概念(例如,文本的主题或情感,作者的特征等)。
方法:提出一种新的基于距离度量学习的优化目标——Kernelized Rate-Distortion Maximizer (KRaM),用于执行概念擦除。KRaM通过修改率失真函数来匹配指定的距离度量(由要擦除的标记概念定义)的表示变换。
效果:实验结果表明,KRaM能有效删除各种类型的分布式表示中的概念,包括分类、连续和向量值变量,并在不同领域表现出良好的效果。
Double Auctions with Two-sided Bandit Feedback
Soumya Basu Abishek Sankararaman
研究问题:本文旨在研究双向拍卖市场中,买卖双方通过重复交互学习各自估值的问题。
动机:双向拍卖市场是许多在线市场的基础,买卖双方通过竞价进行交易,但他们通常不知道自身的先验估值。参与者的盈利性,因此市场的可持续性,关键取决于通过重复交互学习各自的估值。
方法:我们提出了一种基于置信区间的竞价策略和“平均定价”策略,以实现有效的价格发现。我们还证明了在T轮中,买方和卖方的综合估值的社会遗憾(即总遗憾)为$O(\log(T)/\Delta)$,其中$Delta$是最小价格差距。
效果:我们的实验结果表明,买卖双方交换商品时的总遗憾为$O(\sqrt{T})$,而没有从交换中受益的买卖双方分别只经历$O(\log{T}/ \Delta)$ 的遗憾。此外,我们还证明了在某些双向拍卖市场中,无法达到$\omega(sqrt{T})$的个人遗憾和$omega(\log{T})$的社会遗憾。
Adaptive Privacy Composition for Accuracy-first Mechanisms
Ryan Rogers Gennady Samorodnitsky Steven Wu Aaditya Ramdas
研究问题:如何将事后隐私机制与差分隐私机制结合,以实现更高的隐私保护效果?
动机:尽管已有的事后隐私机制可以提供一定的准确性保证,但无法与差分隐私机制结合使用。此外,目前尚无关于这些事后隐私机制如何组合的理论,以便我们能够跟踪多个机制的累积隐私。
方法:我们开发了隐私过滤器,使分析师能够在总体隐私损失保证下自适应地在差分隐私机制和事后隐私机制之间切换。
效果:实验表明,使用特定的事后隐私机制——噪声降低机制——可以显著优于使用现有隐私损失组合边界的基线方法。我们以返回尽可能多的计数为目标,同时满足相对误差保证和总体隐私预算作为示例。
The Adversarial Consistency of Surrogate Risks for Binary Classification
Natalie Frank Jonathan Niles-Weed
研究问题:本研究关注二分类鲁棒性学习中替代风险的一致性。
动机:对抗训练是学习鲁棒分类器的一种常见方法,其目标是在每个示例都可能在一个小球内被恶意破坏的情况下最小化预期的0-1损失。
方法:我们给出了一种简单而完整的描述,描述了一组替代损失函数,这些函数是“一致的”,即可以替换0-1损失,而不会影响原始对抗风险的最小化序列,适用于任何数据分布。
效果:我们的研究结果表明,与标准设置相比,对抗一致性替代类别要小得多,而在标准设置中,许多常见的替代方案都是已知的一致的。
Improving the Privacy and Practicality of Objective Perturbation for Differentially Private Linear Learners
Rachel Emily Redberg Antti Koskela Yu-Xiang Wang
研究问题:如何在保护隐私的机器学习领域中,提升目标扰动机制的性能。
动机:虽然差分隐私随机梯度下降(DP-SGD)在通用性上无人能敌,但其需要显著的隐私开销(用于私有地调整模型的超参数)和可能对简单模型如线性和逻辑回归来说过于昂贵的计算复杂性。
方法:本文通过更严格的隐私分析和新计算工具来改进目标扰动机制,使其在无约束凸广义线性问题上与DP-SGD竞争。
效果:实验结果表明,经过改进的目标扰动机制在性能上可以与DP-SGD相媲美。
Marich: A Query-efficient Distributionally Equivalent Model Extraction Attack
Pratik Karmakar Debabrota Basu
研究问题:设计黑盒模型提取攻击,通过预测API从公开可用的数据集向目标ML模型发送最少数量的查询,以创建信息丰富且分布等价的目标模型副本。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:首先定义分布等价和最大信息模型提取攻击,并将其转化为变分优化问题。攻击者依次解决这个优化问题,选择同时最大化熵并减少目标和被盗模型之间不匹配的最有价值的查询。这导致了基于主动采样的查询选择算法Marich,它是模型无关的。然后,我们在不同的文本和图像数据集以及不同的模型(包括CNNs和BERT)上评估Marich。Marich提取的模型实现了60-95%的真实模型精度,并使用1000-8500个来自公开可用数据集的查询,这些数据集与私有训练数据集不同。Marich提取的模型生成的预测分布比现有的基于主动采样的攻击更接近目标分布2-4倍。提取的模型还导致84-96%的会员推理攻击下的准确率。实验结果验证了Marich是查询高效的,并且能够执行任务准确、高保真度和信息丰富的模型提取。
效果:实验结果表明,经过改进的目标扰动机制在性能上可以与DP-SGD相媲美。
Online Ad Allocation with Predictions
Fabian Christian Spaeh Alina Ene
研究问题:本文旨在解决在线广告分配中的两个重要问题,即显示广告和广义指派问题。
动机:尽管已有的最坏情况算法可以解决这两个问题,但由于现实世界输入的可预测性和通常温和的性质,这些算法可能过于保守。因此,作者希望开发一种结合机器学习预测的算法,以提高性能。
方法:作者基于Feldman等人(2009)的工作,开发了一种基于学习增强的算法,该算法能够利用良好的预测,同时对不良预测具有鲁棒性。
效果:通过在合成数据和真实世界数据上的广泛预测进行实验评估,作者发现他们的算法始终优于没有预测的最坏情况算法。
Strategic Classification under Unknown Personalized Manipulation
Han Shao Avrim Blum Omar Montasser
研究问题:本研究关注在战略分类中的基本错误界限和样本复杂度,其中代理可以策略性地操纵其特征向量以被预测为积极。
动机:在许多情况下,例如大学录取决定,学生可能会尝试采取更简单的课程以提高他们的GPA,重考SAT或转学以欺骗分类器。这种“球操作”是文献中广泛研究的一种操作类别,其中代理可以在一个有界半径的球内修改其特征向量。
方法:我们首先部署分类器,然后代理在其操作集中操纵特征向量以游戏已部署的分类器,从而形式化学习问题。我们探讨了交互过程中可用信息的各种情况,例如在部署之前或之后观察原始特征向量,观察操纵后的特征向量,或者既不看原始特征向量也不看操纵后的特征向量。
效果:我们首先为这些场景提供了在线错误界限和PAC样本复杂度。我们还探索了非球操作,并发现即使在最简单的情况下,即原始特征向量和操纵后的特征向量都被揭示出来,当目标函数属于已知类H时,错误界限和样本复杂度也由$\Omega(|\mathcal H|)$下界。
Scalable Membership Inference Attacks via Quantile Regression
Martin Andres Bertran Shuai Tang Aaron Roth Michael Kearns Jamie Heather Morgenstern Steven Wu
研究问题:本文旨在解决利用黑盒访问训练好的模型,确定特定示例是否在训练中使用过的问题。
动机:现有的成员推断攻击方法需要通过训练许多影子模型来估计测试统计量的分布,这种方法计算成本高且需要对被攻击模型的架构有知识。
方法:本文提出了一种新的基于执行分位数回归的攻击方法,该方法对未用于训练的点的置信度分数分布进行操作。
效果:实验结果表明,该方法与最先进的影子模型攻击方法竞争,但计算成本大大降低,因为只需要训练一个模型。此外,与影子模型攻击不同,所提出的方法不需要任何被攻击模型架构的知识,因此是真正的“黑盒”攻击。
FedGame: A Game-Theoretic Defense against Backdoor Attacks in Federated Learning
Jinyuan Jia Zhuowen Yuan Dinuka Sahabandu Luyao Niu Arezoo Rajabi Bhaskar Ramasubramanian Bo Li Radha Poovendran
研究问题:如何在联邦学习中防止动态攻击者利用后门攻击来破坏全局模型?
动机:现有的联邦学习防御后门攻击的方法通常基于静态攻击者模型,无法有效抵御采用策略性攻击策略的动态攻击者。
方法:将防御者和动态攻击者之间的战略互动建模为一场迷你游戏,设计出一种名为FedGame的交互式防御机制。
效果:实验证明,在受到后门攻击的情况下,使用FedGame训练的全局模型的表现接近未受攻击的情况。与多个最先进的基线相比,FedGame能有效地抵御策略性攻击者,并实现显著更高的鲁棒性。
Lending Interaction Wings to Recommender Systems with Conversational Agents
Jiarui Jin Xianyu Chen Fanghua Ye Mengyue Yang Yue Feng Weinan Zhang Yong Yu Jun Wang
研究问题:本文旨在提出一种新的离线训练和在线检查框架,将对话代理插入推荐系统。
动机:现有的推荐系统主要依赖于用户的历史行为进行训练,而对话代理可以通过在线获取用户的偏好来克服这一限制。
方法:提出了一个名为CORE的新框架,该框架通过统一的不确定性最小化框架将对话代理和推荐系统连接起来,而不是像大多数先前的对话推荐方法那样通过强化学习框架系统地结合对话和推荐部分。
效果:实验结果表明,CORE可以无缝地应用于各种推荐方法,并在热启动和冷启动设置中都能带来显著的改进。
Incentivizing Honesty among Competitors in Collaborative Learning and Optimization
Florian E. Dorner Nikola Konstantinov Georgi Stoyanov Pashaliev Martin Vechev
研究问题:如何让竞争对手在协作学习中诚实地更新模型,以实现高质量的学习效果。
动机:尽管协作学习有潜力训练出优于单一实体数据的机器学习模型,但在实际中,参与者往往是竞争关系,如通过提供最佳推荐来吸引客户的公司,这可能导致他们为了自身利益而损害其他参与者的模型。
方法:本文构建了一个游戏模型来模拟这种互动,并在该框架内研究了两个学习任务:单轮均值估计和多轮强凸目标的随机梯度下降。对于一类自然的玩家行为,我们证明了理性的客户端有动力强烈地操纵他们的更新,从而阻止学习。然后,我们提出了激励诚实通信并确保与完全合作相当的学习质量的机制。
效果:我们在一个标准的非凸联邦学习基准上实证地展示了我们的激励机制的有效性。我们的工作表明,明确地建模不诚实客户端的动机和行为,而不是假设他们是恶意的,可以为协作学习提供强大的鲁棒性保证。
Online Pricing for Multi-User Multi-Item Markets
Yigit Efe Erginbas Thomas Courtade Kannan Ramchandran Soham Rajesh Phade
研究问题:如何通过在线算法有效地向多个用户提供多种商品,同时从用户的接受/拒绝反馈中学习他们的估值,以最大化收入。
动机:现有的在线定价研究主要关注向顺序到达的用户销售单一商品,但在多商品、多用户的环境下,如何智能地为用户提供他们最重视的商品并设定他们能接受的最高价格,是一个复杂的问题。
方法:设计了三种用户估值模型(固定估值、随机体验和随机估值),并提供了具有近乎最优收益遗憾保证的在线算法。
效果:在固定估值模型下,算法在T轮中实现了$O(NM\log\log(LT))$的遗憾;在随机体验和随机估值模型下,算法分别实现了$widetilde{O}(\sqrt{NMLT})$的遗憾。
Causal Fairness for Outcome Control
Drago Plecko Elias Bareinboim
研究问题:如何使自动化决策系统公平和公正,考虑到性别、种族和宗教等敏感属性。
动机:随着社会向基于AI的决策基础设施转变,越来越多的决策从人类手中转移到自动化系统中。尽管这些发展使社会的各个方面更加高效,但大量证据表明,需要非常小心地使这种自动化决策系统公平和公正。
方法:通过因果分析研究了“利益”的概念,即特定个体在积极决策与消极决策对比时,反事实地说,会从中获得多少利益。提出了利益公平性的概念,可以看作是决策中的最小公平性要求,并开发了一种满足它的算法。然后指出,利益本身可能受到受保护属性的影响,并提出了一些可以用来分析这一点的因果工具。
效果:如果受保护属性在利益中的某些变化被认为是歧视性的,那么利益公平性的概念可能需要加强,这导致我们阐明了一个因果利益公平性的概念。使用这个概念,我们开发了一种新的优化程序,能够在决策过程中最大化Y值,同时确保因果公平性。
Unleashing the Power of Randomization in Auditing Differentially Private ML
Krishna Pillutla Galen Andrew Peter Kairouz Hugh Brendan McMahan Alina Oprea Sewoong Oh
研究问题:本文旨在提出一种严格的差分隐私机器学习审计方法,通过添加多个精心设计的“金丝雀”例子。
动机:为了处理随机化数据集,扩展差分隐私的定义,并设计随机化的“金丝雀”。
方法:引入提升的差分隐私(LiDP),尝试区分在数据集中训练有K个“金丝雀”与只有K-1个“金丝雀”的模型。同时,利用多个测试统计量和适应性的高阶相关性来创建新的置信区间。
效果:无论在理论还是实证上,这种新的方法都显著提高了样本复杂度,并在合成数据和真实数据上都取得了良好的效果。此外,新框架可以容易地整合最近设计的更强的“金丝雀”。
Supply-Side Equilibria in Recommender Systems
Meena Jagadeesan Nikhil Garg Jacob Steinhardt
研究问题:本文旨在研究个性化内容推荐系统对生产者激励的影响,以及由此产生的供应侧均衡。
动机:算法推荐系统如Spotify和Netflix不仅影响消费者行为,也影响生产者激励。生产者会试图创建被推荐算法展示的内容,这可能影响他们内容的多样性和质量。
方法:我们将生产者的决策建模为选择多维内容向量,用户具有异质偏好,这与经典的低维模型形成对比。通过使用对偶性论证,我们推导出专门化是否发生的充分必要条件。然后,我们在两个用户群体的具体设置中描述了均衡时的内容分布。
效果:我们的分析表明,专门化可以使生产者在均衡时实现正利润,这意味着专门化可以降低市场竞争性。从概念上讲,我们对供应侧竞争的分析有助于阐明个性化推荐如何塑造数字商品市场。
Robust Contrastive Language-Image Pretraining against Data Poisoning and Backdoor Attacks
Wenhan Yang Jingdong Gao Baharan Mirzasoleiman
研究问题:现有的视觉-语言对比表示学习方法在零样本分类任务上取得了最先进的性能,但这种方法对各种类型的目标数据中毒和后门攻击非常脆弱。
动机:尽管大型多模态模型如CLIP容易受到目标数据中毒和后门攻击的影响,但针对这类攻击的鲁棒对比视觉-语言预训练仍然未得到解决。
方法:本文提出了RoCLIP,这是第一个有效地对抗目标数据中毒和后门攻击进行多模态视觉-语言模型预训练的方法。RoCLIP通过考虑一个相对大且不断变化的随机标题池来打破被污染的图像-标题对之间的关联,并在每个时期将每张图像与其在池中最相似的文本匹配,而不是其自己的标题。
效果:实验表明,RoCLIP使目标数据中毒和后门攻击在预训练CLIP模型时变得无效。特别是,RoCLIP将目标数据中毒攻击的成功率从93.75%降低到12.5%,将后门攻击的成功率降低到0%,同时提高了模型的线性探测性能10%,并保持了与CLIP相当的零样本性能。
CBD: A Certified Backdoor Detector Based on Local Dominant Probability
Zhen Xiang Zidi Xiong Bo Li
研究问题:现有的视觉-语言对比表示学习方法在零样本分类任务上取得了最先进的性能,但这种方法对各种类型的目标数据中毒和后门攻击非常脆弱。
动机:尽管大型多模态模型如CLIP容易受到目标数据中毒和后门攻击的影响,但针对这类攻击的鲁棒对比视觉-语言预训练仍然未得到解决。
方法:本文提出了RoCLIP,这是第一个有效地对抗目标数据中毒和后门攻击进行多模态视觉-语言模型预训练的方法。RoCLIP通过考虑一个相对大且不断变化的随机标题池来打破被污染的图像-标题对之间的关联,并在每个时期将每张图像与其在池中最相似的文本匹配,而不是其自己的标题。
效果:实验表明,RoCLIP使目标数据中毒和后门攻击在预训练CLIP模型时变得无效。特别是,RoCLIP将目标数据中毒攻击的成功率从93.75%降低到12.5%,将后门攻击的成功率降低到0%,同时提高了模型的线性探测性能10%,并保持了与CLIP相当的零样本性能。
Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition
Meena Jagadeesan Michael Jordan Jacob Steinhardt Nika Haghtalab
研究问题:随着机器学习模型规模的增大,预测准确率的提高是否总是呈上升趋势?在多个模型供应商竞争的情况下,这种趋势会如何变化?
动机:现有的研究主要关注单一模型供应商的情况,而现实中供应商之间存在竞争。本研究旨在探讨竞争对预测准确率的影响。
方法:定义了一个分类任务的竞争模型,并使用数据表示作为研究规模增加影响的工具。通过模拟预训练表示在CIFAR-10上的表现,发现在某些情况下,提高数据表示质量(用贝叶斯风险衡量)会导致整体用户预测准确率下降。
效果:本研究表明,对于单个模型供应商有利的规模增长趋势并不一定能转化为多个模型供应商市场中的社会福祉提升。
Differentially Private Decoupled Graph Convolutions for Multigranular Topology Protection
Eli Chien Wei-Ning Chen Chao Pan Pan Li Ayfer Ozgur Olgica Milenkovic
研究问题:如何保护图神经网络(GNN)在处理图结构数据时暴露的敏感用户信息和交互。
动机:直接将标准的差分隐私(DP)方法应用于GNN存在两个主要问题,一是节点标签预测可能泄露隐私,二是实际应用中对节点属性和图拓扑的隐私要求可能不同。
方法:提出一种新的框架——图差分隐私(GDP),专门针对图学习进行设计,确保模型参数和预测结果的私有性。同时,提出了一种统一的图数据集邻接性概念,以分析GDP在不同级别的图拓扑隐私上的性质。
效果:通过在七个节点分类基准测试和说明性合成数据集上的大量实验,发现DPDGCs在隐私-效用权衡方面显著优于现有的DP-GNNs。
Bounding training data reconstruction in DP-SGD
Jamie Hayes Borja Balle Saeed Mahloujifar
研究问题:本文旨在进一步研究差分隐私训练在保护深度学习模型不受重建攻击威胁方面的有效性。
动机:尽管差分隐私训练通常被解释为防止成员推断攻击的保证,但最近的研究表明,如果只需要保护训练数据不被重建,那么可以通过减少噪声来提高模型的效用。
方法:本文以差分隐私随机梯度下降(DP-SGD)为例,提供了任何重建攻击成功的上限,并进行了实证匹配的攻击。
效果:结果显示,不同的DP-SGD参数设置即使保证了相同的DP,对于防止重建攻击的成功率也会有所不同,这表明仅依赖DP保证可能无法有效控制重建攻击的威胁。
Moral Responsibility for AI Systems
Sander Beckers
研究问题:随着越来越多的具有重大伦理维度的决策被外包给AI系统,对AI系统的道德责任进行定义变得非常重要。
动机:为了应对AI系统在道德责任方面的问题,需要明确其道德责任的定义和条件。
方法:本文提出了一种基于因果模型的形式化定义,包括因果关系和认知条件,并将该定义与现有的Braham和van Hees以及Halpern和Kleiman-Weiner的方法进行了比较。
效果:通过将道德责任定义为程度,可以更好地衡量AI系统在道德责任方面的表现。
Estimating and Controlling for Equalized Odds via Sensitive Attribute Predictors
Beepul Bharti Paul Yi Jeremias Sulam
研究问题:随着机器学习模型在现实世界高风险决策设置中的使用不断增加,如何审计研究问题:随着机器学习模型在现实世界高风险决策设置中的使用不断增加,如何审计和控制这些模型可能对某些群体表现出的潜在公平性违规行为变得非常重要。
动机:在许多情况下,敏感属性信息(如人口统计、生物性别或其他决定群体成员资格的潜在敏感特征)往往不可用。因此,本研究探讨了著名的等机会(EOD)公平性定义。
方法:在没有敏感属性的设置中,我们首先为预测器的EOD违规提供了紧密且可计算的上界。其次,我们通过一种新的后处理校正方法展示了如何可证明地控制最坏情况的EOD。
效果:我们的研究结果刻画了当直接控制预测的敏感属性时,何时能最优化地控制最坏情况的EOD,以及何时不能。我们的结果在假设上比之前的工作更温和,并通过在合成和真实数据集上的实验进行了说明。
RECESS Vaccine for Federated Learning: Proactive Defense Against Model Poisoning Attacks
Haonan Yan Wenjing Zhang Qian Chen Xiaoguang Li Wenhai Sun HUI LI Xiaodong Lin
研究问题:模型投毒攻击对联邦学习的应用构成严重威胁,现有的防御方法效果易受最新投毒攻击影响,导致预测准确率下降。
动机:目前的防御方法难以区分良性异常和恶意梯度,进一步损害了模型的泛化能力。
方法:提出一种名为RECESS的新型防御方法,包括检测和聚合,作为联邦学习的“疫苗”来对抗模型投毒攻击。RECESS主动查询每个参与客户端,使用精心设计的聚合梯度,并根据他们的反应以更高的精度检测恶意客户端。此外,RECESS采用一种新的基于信任评分的机制来稳健地聚合梯度。
效果:在多种设置下,包括白/黑盒、跨部门/设备联邦学习等,RECESS在典型模型架构和四个数据集上进行了广泛评估。实验结果表明,RECESS在减少最新模型投毒攻击引起的准确率损失方面优于五种经典和两种最先进的防御方法。
SALSA VERDE: a machine learning attack on LWE with sparse small secrets
Cathy Yuanchen Li Emily Wenger Zeyuan Allen-Zhu Francois Charton Kristin E. Lauter
研究问题:如何评估LWE问题的困难程度以及其特定参数选择的安全性。
动机:LWE问题是后量子密码学中的难题,而同态加密(HE)方案的安全性依赖于LWE问题的困难程度。因此,对LWE和其特定参数选择的安全性进行持续评估至关重要。
方法:我们提出了一种改进的ML攻击方法VERDE,可以恢复稀疏二进制、三元和窄高斯秘密。通过改进预处理和秘密恢复技术,VERDE可以在更大的维度($n=512$)和更小的模数($\log_2 q=12$对于$n=256$)下攻击LWE,使用更少的时间和功率。我们还提出了用于扩展的新架构。
效果:实验结果表明,我们的VERDE方法在恢复稀疏秘密方面取得了显著改进,并且可以在短时间内以较低的计算成本成功攻击LWE。
Cookie Consent Has Disparate Impact on Estimation Accuracy
Erik Miehling Rahul Nair Elizabeth M. Daly Karthikeyan Natesan Ramamurthy Robert Nelson Redmond
研究问题:用户同意对推荐系统学习其潜在属性的能力有何影响?不同人口统计特征的用户在同意分享cookie时,推荐系统对其潜在属性的估计是否存在差异?
动机:随着cookies被用于更准确地识别和追踪用户行为,引发了关于隐私和公平性的问题。用户的同意决策如何影响推荐系统对其潜在属性的学习?这种影响在不同人口统计特征之间是否一致?
方法:通过模拟参与驱动的推荐系统,进行实验研究。当同意率呈现人口统计依赖性时,分析用户同意与否对推荐系统学习其潜在属性的影响。
效果:研究发现,当同意率存在人口统计依赖性时,用户不同意分享cookie可能会反而使推荐系统对其了解得更多。此外,基本同意率的差距会放大这种效应:来自低同意率群体的用户,如果同意分享cookie,他们的估计误差通常比来自高同意率群体的用户更大;反之亦然。这需要提出新的公平性概念,鼓励用户隐私决策与系统估计其潜在属性的能力之间的一致性。
Wasserstein distributional robustness of neural networks
Xingjian Bai Guangyi He Yifan Jiang Jan Obloj
研究问题:深度神经网络容易受到对抗性攻击,如何设计并防御这些攻击是当前的研究热点。
动机:传统的对抗性攻击假设每个输入数据点的扰动都有相同的上界,而分布威胁模型允许攻击者以非均匀的方式对输入进行扰动。
方法:利用Wasserstein分布鲁棒优化(DRO)技术,提出了一种新的对抗性训练方法,该方法考虑了一组分布威胁模型,并将更一般的攻击与样本外性能和奈特不确定性问题联系起来。
效果:通过在CIFAR-10、CIFAR-100和ImageNet数据集上使用RobustBench的深度神经网络进行数值实验,验证了理论结果的正确性。
FairLISA: Fair User Modeling with Limited Sensitive Attributes Information
Zheng Zhang Qi Liu Hao Jiang Fei Wang Yan Zhuang Le Wu Weibo Gao Enhong Chen
研究问题:传统的用户模型可能会从行为数据中无意识地捕捉到与敏感属性(如性别)相关的偏见,导致不公平和歧视。
动机:为了解决这一问题,研究人员提出了一些方法来明确地解耦用户模型结果和敏感属性以提高公平性。但这些方法大多需要完整的敏感属性标签,这在现实中很难实现。
方法:本文提出了一种新的FairLISA框架,该框架可以有效地利用已知和未知敏感属性的数据进行公平的模型训练。首先,我们提出了一个新的理论观点来建立已知和未知敏感属性数据与公平目标之间的关系。然后,基于这个观点,我们提供了一个通用的对抗性框架来有效地利用整个用户数据进行公平的用户建模。
效果:我们在推荐系统和认知诊断等代表性的用户建模任务上进行了实验。结果表明,我们的FairLISA可以在不同比例的缺失敏感属性的情况下有效地提高公平性,同时保持高准确性。
Towards Stable Backdoor Purification through Feature Shift Tuning
Rui Min Zeyu Qin Li Shen Minhao Cheng
研究问题:深度神经网络容易受到后门攻击,即攻击者通过篡改少量训练样本来恶意操纵模型行为。
动机:尽管已经提出了一系列的防御方法,但这些方法要么需要对训练过程进行复杂的修改,要么严重依赖于特定的模型架构,这使得它们难以部署到实际应用中。
方法:本文从微调这一最常见且易于部署的后门防御方法开始,通过全面的评估对抗不同的攻击场景。具体来说,我们引入了特征转移微调(FST)方法,该方法通过主动使分类器权重偏离最初被破坏的权重,来鼓励特征转移。
效果:实验结果表明,与在高中毒率下取得的良好防御结果相比,普通微调方法在低中毒率场景下完全失败。我们的分析表明,在低中毒率下,后门和清洁特征之间的纠缠削弱了基于微调的防御的效果。因此,为了提高后门净化效果,有必要分离后门和清洁特征。
Balancing Risk and Reward: A Batched-Bandit Strategy for Automated Phased Release
Yufan Li Jialiang Mao Iavor Bojinov
研究问题:如何通过分阶段发布来平衡新产品或更新的风险和快速迭代学习的需求。
动机:在科技行业中,分阶段发布是一种常见的策略,用于通过一系列A/B测试逐渐发布新的产品或更新,需要以原则性的方式选择分配给新发布的单位比例,以平衡负面影响的风险和快速迭代学习的需求。
方法:本文将此问题形式化并提出一种算法,该算法可以自动确定每个阶段的发布百分比,平衡控制风险和最大化加速速度的需要。我们的框架将此挑战
效果:实验结果表明,与在高中毒率下取得的良好防御结果相比,普通微调方法在低中毒率场景下完全失败。我们的分析表明,在低中毒率下,后门和清洁特征之间的纠缠削弱了基于微调的防御的效果。因此,为了提高后门净化效果,有必要分离后门和清洁特征。
Gaussian Membership Inference Privacy
Tobias Leemann Martin Pawelczyk Gjergji Kasneci
研究问题:提出一种新的隐私概念$f$-Membership Inference Privacy($f$-MIP),明确考虑了现实对手在成员推断攻击威胁模型下的能力。
动机:现有的隐私保护方法往往忽视了现实中的对手能力,而$f$-MIP通过考虑对手的能力,提供了可解释的隐私保证和提高的效用。
方法:通过理论分析基于似然比的成员推断攻击,提出了一种参数化的$f$-MIP保障,称为$\mu$-高斯成员推断隐私($\mu$-GMIP)。同时,展示了如何通过向梯度更新添加噪声来增强$f$-MIP。
效果:实验证明,该方法在视觉和表格数据集上训练的模型中具有有效性。
A Theory of Transfer-Based Black-Box Attacks: Explanation and Implications
Yanbo Chen Weiwei Liu
研究问题:本文旨在通过统一的理论框架研究基于转移的攻击,并提出了解释模型。
动机:现有的实证工作只能提供特定角度的临时解释,而没有进行定量分析,因此基于转移的攻击背后的理论仍然是一个谜团。
方法:本文提出了一个名为“流形攻击模型”的解释模型,该模型形式化了流行的信念,并解释了现有的实证结果。
效果:该模型解释了为什么即使源模型不准确,对抗性示例也是可转移的。此外,该模型还暗示了可转移对抗性示例的存在取决于数据流形的“曲率”,从而定量解释了为什么基于转移的攻击成功率难以提高。
Enhancing Adversarial Robustness via Score-Based Optimization
Boya Zhang Weijian Luo Zhihua Zhang
研究问题:如何通过引入微小的扰动来误导深度神经网络分类器,并开发能够减轻这些攻击影响的算法,以确保人工智能的安全使用。
动机:现有的基于扩散的攻击防御方法依赖于扩散模型的逆随机微分方程的顺序模拟,这在计算上效率低下,并且结果次优。
方法:本文提出了一种名为ScoreOpt的新型对抗防御方案,该方案在测试时优化对抗样本,使其向原始干净数据的方向移动,并在基于得分的先验指导下进行。
效果:我们在CIFAR10、CIFAR100和ImageNet等多个数据集上进行了全面实验。实验结果表明,我们的方法在鲁棒性和推理速度方面都优于现有的对抗防御方法。
Fantastic Robustness Measures: The Secrets of Robust Generalization
Hoki Kim Jinseong Park Yujin Choi Jaewook Lee
研究问题:对抗训练已成为提高模型对对抗性示例鲁棒性的事实标准方法,但鲁棒过拟合仍是一个重大挑战,导致训练集和测试集之间的鲁棒性存在巨大差距。
动机:为了理解和改善鲁棒泛化,研究人员开发了各种度量方法,包括基于边界、平滑度和平坦度的度量。本研究旨在通过大规模分析来验证这些度量方法与鲁棒泛化之间的关系是否在多样化的设置中仍然有效。
方法:我们在CIFAR-10数据集上比较了超过1300个模型,并进一步在RobustBench的CIFAR-10、CIFAR-100和ImageNet上评估了100多个模型,以实证检验这些度量方法是否有效地捕捉到鲁棒泛化的差距。
效果:实验结果表明,这些度量方法在不同设置下能够有效地捕捉到鲁棒泛化的差距,有助于更好地理解对抗性鲁棒性,并激发了更多针对对抗性攻击的鲁棒防御方法的发展。
One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based Offline Reinforcement Learning
Marc Rigter Bruno Lacerda Nick Hawes
研究问题:如何使离线强化学习(RL)在安全关键领域中实现风险规避和避免分布偏移。
动机:在线探索在安全关键领域不可行,决策需要考虑灾难性结果的风险,即需要风险规避。同时,离线RL需要解决分布偏移的问题。
方法:提出一种基于模型的方法,使用模型集合来估计认识不确定性和偶然不确定性,训练一个避免高不确定性动作的、具有风险规避性的政策。
效果:实验表明,该方法在确定性基准上表现强劲,并在随机领域中优于现有方法,实现了风险规避和避免分布偏移。
The Utility of “Even if” Semifactual Explanation to Optimise Positive Outcomes
Eoin M. Kenny Weipeng Fuzzy Huang
研究问题:本文旨在探讨如何使用可解释的人工智能(XAI)优化自动化系统的积极结果,而不是将消极结果转化为积极结果。
动机:目前的XAI主要关注如何通过使用反事实来跨越决策边界将消极结果转化为积极结果,而本文则专注于积极的结果,并采取新的步骤使用XAI来优化它们。
方法:本文引入了“即使...”推理的概念,并提出了半事实的概念,以实例化这种推理。同时,还考虑了半事实的第一种因果形式化方法。
效果:实验结果表明,与先前的工作相比,我们的算法在最大化增益方面表现更好,而且在这个过程中因果关系非常重要。最重要的是,用户研究支持我们的主要假设,即当人们收到贷款批准的积极结果时,他们发现半事实解释比反事实更有用。
Beyond Black-Box Advice: Learning-Augmented Algorithms for MDPs with Q-Value Predictions
Tongxin Li Yiheng Lin Shaolei Ren Adam Wierman
研究问题:在存在不可信的机器学习建议的情况下,研究单轨迹时变马尔可夫决策过程(MDP)中一致性和鲁棒性之间的权衡。
动机:与将建议视为来自黑箱来源的典型方法不同,我们考虑了一个额外信息关于如何生成建议的环境。
方法:我们在一个包含连续和离散状态/动作空间的通用MDP模型下,证明了在Q值建议下的一致性和鲁棒性权衡,这是首次实现。
效果:我们的研究结果强调了利用Q值建议能够动态地追求更好的机器学习建议和鲁棒基线,从而在性能保证上接近最优,这被证明比仅使用黑箱建议能够得到的结果有所改善。
Causal Context Connects Counterfactual Fairness to Robust Prediction and Group Fairness
Jacy Reese Anthis Victor Veitch
研究问题:本文旨在探讨如何通过"因果上下文"弥合反事实公平性、稳健预测和群体公平性之间的差距。
动机:虽然反事实公平性是一个直观的标准,但其在现实世界的数据中无法直接观察,因此其应用受到限制。而群体公平性指标虽然不那么直观,但更容易观察到。
方法:本文使用"因果上下文"来连接反事实公平性、稳健预测和群体公平性。首先,我们通过展示在合理的条件下,反事实公平的预测者实际上是无偏目标分布下的准确性最优者,从而激发了反事实公平性的动机。其次,我们开发了一个对应关系,该对应关系是数据生成过程的因果图与哪些(如果有的话)群体公平性指标等同于反事实公平性。最后,我们展示了在三种常见的公平性背景下——测量误差、标签选择和预测器选择——反事实公平性分别等同于人口平等、机会均等和校准。
效果:在某些情况下,反事实公平性可以通过测量相对简单的群体公平性指标进行测试。
Triple Eagle: Simple, Fast and Practical Budget-Feasible Mechanisms
Kai Han You Wu He Huang Shuang Cui
研究问题:本文旨在重新审视为次模态估值函数设计预算可行机制(BFMs)的经典问题。
动机:由于其在众包和社交媒体营销中的广泛应用,自Singer的开创性论文[FOCS'10]以来,这个问题得到了广泛的研究。
方法:我们提出了TripleEagle,一个新的算法框架,用于设计BFMs。基于此,我们提出了几种简单而有效的BFMs,其近似比优于最先进的工作。此外,我们的BFMs是文献中首次实现线性复杂度同时确保明显策略性的,使其比之前的BFMs更具实用性。
效果:我们进行了广泛的实验来评估我们BFMs的经验性能,实验结果强烈证明了我们方法的效率和有效性。
REFINE: A Fine-Grained Medication Recommendation System Using Deep Learning and Personalized Drug Interaction Modeling
Suman Bhoi Mong-Li Lee Wynne Hsu Ngiap Chuan Tan
研究问题:现有的药物推荐系统只提供类别级别的药物,并认为所有药物之间的相互作用都具有相同的严重程度,这限制了它们为个人需求提供个性化和安全建议的能力。
动机:患有共病的患者通常需要多种药物来管理他们的病情。然而,现有的药物推荐系统只提供类别级别的药物,并认为所有药物之间的相互作用都具有相同的严重程度,这限制了它们为个人需求提供个性化和安全建议的能力。
方法:我们引入了一种基于深度学习的细粒度药物推荐系统,称为REFINE,旨在改善治疗效果并最小化不良药物相互作用。为了更好地描述患者的健康状况,我们模拟了药物剂量滴定和实验室测试反应的趋势,并将视觉转换器适应于获取有效的患者表示。我们还将药物相互作用的严重程度模型化为加权图以学习安全的药物组合,并设计了一个平衡的损失函数以避免过于保守的建议并错过某些情况下可能需要的药物。
效果:在两个真实世界的数据集上的大量实验表明,REFINE优于最先进的技术。
Calibration by Distribution Matching: Trainable Kernel Calibration Metrics
Charles Thomas Marx Sofian Zalouk Stefano Ermon
研究问题:如何通过预测概率与经验频率对齐,使概率预测有意义地捕捉不确定性。
动机:许多现有的校准方法都是专门用于事后再校准的,这可能会降低预测的准确性。
方法:引入基于内核的校准度量标准,统一和推广了分类和回归中流行的校准形式。这些度量标准允许可微分的样本估计,使校准目标易于纳入经验风险最小化。
效果:实证评估表明,将这些度量标准用作正则化器可以提高一系列回归和分类任务中的校准、准确性和决策能力,优于仅依赖事后再校准的方法。
Static and Sequential Malicious Attacks in the Context of Selective Forgetting
CHENXU ZHAO Wei Qian Zhitao Ying Mengdi Huai
研究问题:如何应对恶意数据更新请求对选择性遗忘(即机器取消学习)系统的安全漏洞。
动机:尽管选择性遗忘在删除训练好的模型中指定数据的影响方面取得了显著的成功,但对其在恶意数据更新请求方面的安全漏洞关注不足。
方法:提出一种新的恶意选择性遗忘攻击类别,包括静态场景和顺序设置。静态场景中,所有恶意数据更新请求都由攻击者一次性提供;顺序设置中,数据更新请求依次到达,设计了一种新的顺序遗忘攻击框架,形式化为随机最优控制问题。
效果:通过理论分析和大量实验验证了所提出的选择性遗忘攻击的有效性。
Adversarial Robustness through Random Weight Sampling
Yanxiang Ma Minjing Dong Chang Xu
研究问题:深度神经网络在各种任务中易受攻击,如何提高其对抗鲁棒性。
动机:目前的对抗防御方法主要通过引入不同类型的扰动来破坏对抗攻击,但这些方法的防御性能对随机性参数非常敏感,且这些参数通常需要手动调整。
方法:提出将随机权重纳入优化中,以充分利用随机化防御的潜力。通过对随机性参数与梯度相似性和自然性能之间的联系进行理论分析,建议在优化过程中对随机权重施加理论指导的约束。
效果:通过引入约束训练随机权重(CTRW)模型,在多个数据集和卷积神经网络上进行评估,结果显示,相比于基线模型,CTRW模型的鲁棒性提高了约16%-17%(PGD-20)和22%-25%(Auto Attack)。
Incentives in Private Collaborative Machine Learning
Rachael Hwee Ling Sim Yehong Zhang Trong Nghia Hoang Xinyi Xu Bryan Kian Hsiang Low Patrick Jaillet
研究问题:深度神经网络在各种任务中易受攻击,如何提高其对抗鲁棒性。
动机:目前的对抗防御方法主要通过引入不同类型的扰动来破坏对抗攻击,但这些方法的防御性能对随机性参数非常敏感,且这些参数通常需要手动调整。
方法:提出将随机权重纳入优化中,以充分利用随机化防御的潜力。通过对随机性参数与梯度相似性和自然性能之间的联系进行理论分析,建议在优化过程中对随机权重施加理论指导的约束。
效果:通过引入约束训练随机权重(CTRW)模型,在多个数据集和卷积神经网络上进行评估,结果显示,相比于基线模型,CTRW模型的鲁棒性提高了约16%-17%(PGD-20)和22%-25%(Auto Attack)。
Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes
Connor Toups Rishi Bommasani Kathleen Creel Sarah H Bana Dan Jurafsky Percy Liang
研究问题:本文旨在通过生态系统级别的分析,研究机器学习模型在特定环境中的部署对社会的影响。
动机:传统的机器学习研究主要关注模型层面,如准确性、鲁棒性等。然而,实际中,一个机器学习模型的社会影响部分取决于其被部署的环境。因此,引入生态系统级别的分析来捕捉这一点。
方法:我们考虑在给定环境中部署的模型集合,而不仅仅是单个模型。例如,在招聘中的生态系统级别分析认识到,求职者的结果不仅由单个招聘算法或公司决定,而是由所有申请过的公司的决定共同决定的。
效果:通过对三种模态(文本、图像、语音)和11个数据集的分析,我们发现已部署的机器学习系统容易出现系统性失败,即一些用户总是被所有可用的模型错误分类。即使个别模型在整体上随着时间的推移而改进,我们发现这些改进很少能减少系统性失败的发生率。相反,这些改进的好处主要惠及那些已经被其他模型正确分类的用户。
Adversarial Resilience in Sequential Prediction via Abstention
Surbhi Goel Steve Hanneke Shay Moran Abhishek Shetty
研究问题:在随机设置中,存在允许注入干净标签对抗性(或分布外)示例的敌对者时,如何进行序列预测。
动机:针对纯随机数据的算法往往在存在对抗性示例的情况下失败,导致错误的预测,这在许多高风险应用中是不希望的。另一方面,假设完全敌对的数据会导致非常悲观的界限,在实践中往往是无效的。
方法:我们提出了一种新的序列预测模型,通过允许学习者在对抗性示例上免费放弃预测,从而要求学习者做出确定性的预测,从而摆脱这些悲观的保证。假设可以访问非敌对示例的边缘分布,我们设计了一个学习者,其错误与假设类别的VC维(反映随机设置)成比例,而不是完全敌对设置的小石维。此外,我们还为VC维~1类和轴对齐矩形类设计了学习器,即使在没有访问边缘分布的情况下也能工作。我们的主要技术贡献是一种新的不确定性度量方法,用于学习VC类,这可能是独立的研究领域。
效果:实验结果表明,我们的模型在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Learning with Explanation Constraints
Rattana Pukdee Dylan Sam J Zico Kolter Nina Balcan Pradeep Kumar Ravikumar
研究问题:如何通过解释约束来改善深度学习模型的学习?
动机:大型深度学习模型的解释性差,而预先存在模型应该如何行为的解释。
方法:提出了一种学习理论框架,从解释约束的角度来分析这些解释如何提高模型的学习。同时,还提供了一种算法解决方案,通过变分近似实现更好的性能和更频繁地满足这些约束。
效果:在一系列合成和真实世界的实验中,证明了该方法的优越性。
Breaking the Communication-Privacy-Accuracy Tradeoff with $f$-Differential Privacy
Richeng Jin Zhonggen Su Caijun Zhong Zhaoyang Zhang Tony Quek Huaiyu Dai
研究问题:本文探讨了在有隐私顾虑和有限通信能力的用户之间进行协作数据分析的联邦数据 analytics 问题。
动机:常见的压缩方案虽然提高了通信效率,但会引入信息丢失到本地数据中,同时是否提供了任何隐私保护仍是一个开放的问题。
方法:通过 $f$-差分隐私(DP)的视角,研究了具有有限输出空间的离散值机制的局部差分隐私保证。具体来说,我们为各种离散值机制推导出了紧密的 $f$-DP 保证,包括用于隐私保护的二项噪声和二项机制,以及用于数据压缩的信号基础方法。
效果:我们进一步研究了通过稀疏化增强隐私的方法,并提出了三元随机压缩器。通过利用压缩增强隐私,我们在流行的分布式均值估计用例中消除了准确性(以均方误差衡量)对通信成本的依赖性,从而打破了隐私、通信和准确性之间的三重权衡。
A3FL: Adversarially Adaptive Backdoor Attacks to Federated Learning
Hangfan Zhang Jinyuan Jia Jinghui Chen Lu Lin Dinghao Wu
研究问题:现有的联邦学习模型容易受到后门攻击,但现有研究的后门触发器通常是固定的或仅基于本地数据和模型进行优化,导致攻击效果不佳。
动机:为了提高后门攻击的成功率和持久性,需要一种能够适应全局训练动态的后门触发器。
方法:提出了一种新的后门攻击方法A3FL,该方法通过对抗性地调整后门触发器,使其在全局模型中更难以被移除。
效果:在基准数据集上的大量实验表明,A3FL在十二种现有防御措施上表现出了强大的攻击效果。
When Does Confidence-Based Cascade Deferral Suffice?
Wittawat Jitkrittum Neha Gupta Aditya Krishna Menon Harikrishna Narasimhan Ankit Singh Rawat Sanjiv Kumar
研究问题:本文旨在理解和改进基于信心的延迟策略在什么情况下可能会失败,以及何时替代的延迟策略可以表现得更好。
动机:尽管基于信心的延迟策略在实践中效果显著,但它忽视了级联的结构,例如没有对下游模型的错误进行建模。
方法:首先,我们提出了一个理论上的最佳延迟规则,精确地描述了基于信心的延迟可能遭受的情况。然后,我们研究了事后延迟机制,并证明它们可以在以下情况下显著改善基于信心的延迟:(i)下游模型是专门处理输入子集的专家;(ii)样本受到标签噪声的影响;(iii)训练集和测试集之间存在分布偏移。
效果:实验结果表明,当下游模型是专门处理输入子集的专家、样本受到标签噪声的影响或训练集和测试集之间存在分布偏移时,后验延迟机制可以显著提高基于信心的延迟的性能。
On the explainable properties of 1-Lipschitz Neural Networks: An Optimal Transport Perspective
Mathieu Serrurier Franck Mamalet Thomas FEL Louis Béthune Thibaut Boissin
研究问题:本文旨在解决传统神经网络生成的显著图噪声大、解析度低的问题。
动机:输入梯度在许多应用中起着关键作用,包括评估模型鲁棒性的对抗性攻击算法,生成显著图的解释性AI技术,以及反事实解释。然而,传统神经网络生成的显著图通常噪声大,提供的信息有限。
方法:本文提出使用最优传输问题的对偶损失来学习1-Lipschitz神经网络,其生成的显著图具有理想的可解释人工智能(XAI)属性:它们高度集中在图像的关键部分,噪声低,在各种模型和度量标准上显著优于最先进的解释方法。
效果:实验结果表明,这种显著图与传统方法相比,更能反映人类对ImageNet的解释。此外,这种网络通过联合优化分类目标和梯度(即显著图)与传输计划方向的对齐,从而在学习过程中被证明具有鲁棒性设计。
Black-Box Differential Privacy for Interactive ML
Haim Kaplan Yishay Mansour Shay Moran Kobbi Nissim Uri Stemmer
研究问题:本文旨在重新审视最近由Naor等人提出的交互式联合差分隐私变体,并将其推广到处理现有隐私定义似乎过于严格的在线过程。
动机:传统的差分隐私形式,如Golowich和Livni [2021]研究的形式,其错误边界的开销仅为双指数级。相比之下,我们提出的新型隐私定义在错误边界的开销上只有多项式级的增加。
方法:通过考虑在线分类的基本设置,我们将任何可能非私有的学习规则有效地转化为具有仅在错误边界上的多项式开销的私有学习规则。
效果:实验结果表明,我们的新型隐私定义相比传统的差分隐私形式有显著优势,其在错误边界的开销上只有多项式级的增加。
Top-Ambiguity Samples Matter: Understanding Why Deep Ensemble Works in Selective Classification
Qiang Ding Yixuan Cao Ping Luo
研究问题:本文旨在解决机器学习模型在处理困难输入时,如何提高预测的可靠性。
动机:尽管在实践中,集成方法在选择性分类中非常有效,但对其工作原理的分析却相对缺乏。
方法:受到一个有趣的实证结果的启发,即集成方法的改进主要来自于其成员模型分歧最大的高模糊性样本,作者证明了在一定覆盖范围内,基于一些假设,集成方法的选择性风险低于任何成员模型。
效果:通过在计算机视觉和自然语言处理任务上的系统实验,验证了这些假设和理论结果的正确性。
RS-Del: Edit Distance Robustness Certificates for Sequence Classifiers via Randomized Deletion
Zhuoqun Huang Neil G Marchant Keane Lucas Lujo Bauer Olga Ohrimenko Benjamin I. P. Rubinstein
研究问题:如何为离散或变长输入的分类器,如源代码,提供经过认证的对抗性鲁棒性。
动机:现有的随机平滑方法主要针对连续输入的分类器,如图像,而对离散或变长输入的分类器的研究较少。
方法:提出一种适用于离散序列分类器的随机化平滑方法——随机删除(RS-Del),该方法通过随机删除编辑来提供对抗删除、插入和替换编辑的鲁棒性。
效果:在恶意软件检测的案例研究中,当应用于流行的MalConv恶意软件检测模型时,我们的平滑方法RS-Del在编辑距离半径为128字节时实现了91%的认证准确率。
Content-based Unrestricted Adversarial Attack
Zhaoyu Chen Bo Li Shuang Wu Kaixun Jiang Shouhong Ding Wenqiang Zhang
研究问题:如何生成能有效且逼真地欺骗人类感知和深度神经网络的无限制对抗性示例。
动机:目前的无限制对抗性攻击方法通常牺牲了无限制的程度,通过主观选择一些图像内容来保证对抗性示例的真实性,这限制了其攻击性能。
方法:提出一种名为基于内容的无限制对抗性攻击的新型无限制攻击框架。利用表示自然图像的低维流形,将图像映射到该流形上,并沿着其对抗方向进行优化。在这个框架内,实现了基于稳定扩散的对抗性内容攻击,可以生成具有各种对抗性内容的高可转移的无限制对抗性示例。
效果:广泛的实验和可视化表明,ACA在超越最先进的攻击方法和防御方法方面特别有效,平均分别提高了13.3-50.4%和16.8-48.0%。
Adapting Fairness Interventions to Missing Values
Raymond Feng Flavio Calmon Hao Wang
研究问题:现实世界数据中的缺失值对算法公平性构成了重大且独特的挑战。
动机:不同的人口群体可能受到缺失数据的不同影响,而处理缺失值的标准程序——先进行数据填充,然后使用填充后的数据进行分类——可能会加剧歧视。
方法:我们分析了缺失值如何影响算法公平性,并提出了可扩展和自适应的公平分类算法来处理缺失值。这些算法可以与任何现有的公平干预算法结合,以处理所有可能的缺失模式,同时保留编码在缺失模式中的信息。
效果:通过与最先进的公平干预措施的数值实验,我们发现我们的自适应算法始终比“填充-然后分类”实现更高的公平性和准确性。
Model Shapley: Equitable Model Valuation with Black-box Access
Xinyi Xu Thanh Lam Chuan-Sheng Foo Bryan Kian Hsiang Low
研究问题:如何公平地评估和定价预训练的机器学习模型。
动机:现有的AI市场需要一种公平的模型评估方法来为预训练的ML模型定价,特别是在黑箱访问设置下,不允许披露模型的具体信息。
方法:通过利用模型预测的Dirichlet抽象,提出了一种新的公平模型评估方法,称为模型Shapley。同时,利用模型Shapley的Lipschitz连续性设计了一种学习策略,用于预测大型市场中许多供应商(如150个)的模型的模型Shapley值。
效果:通过各种真实世界数据集和异构模型类型的广泛实证验证,证明了模型Shapley的有效性。
Black-box Backdoor Defense via Zero-shot Image Purification
Yucheng Shi Mengnan Du Xuansheng Wu Zihan Guan Jin Sun Ninghao Liu
研究问题:如何防御后门攻击,特别是针对只允许查询访问的真实世界黑箱模型。
动机:后门攻击通过在训练数据中注入有毒样本,导致模型部署时对被毒化的输入进行错误分类,防御这种攻击具有挑战性。
方法:本文提出了一种名为零射图像净化(ZIP)的新型防御框架。该框架无需了解模型的内部信息或任何有关干净/有毒样本的先验知识即可应用于中毒模型。防御框架包括两个步骤:首先,对有毒图像应用线性变换(如模糊)以破坏后门模式;然后,使用预训练的扩散模型恢复因变换而丢失的语义信息。
效果:我们在多个数据集上评估了ZIP框架,实验结果表明,我们的ZIP框架优于最先进的后门防御基线。我们相信,我们的结果将为未来黑箱模型的防御方法提供有价值的见解。
Defending Pre-trained Language Models as Few-shot Learners against Backdoor Attacks
Zhaohan Xi Tianyu Du Changjiang Li Ren Pang Shouling Ji Jinghui Chen Fenglong Ma Ting Wang
研究问题:预训练语言模型作为少次学习者在少次场景下的安全风险尚未被探索。
动机:现有的防御措施由于少次场景的独特挑战而无法应对预训练语言模型的脆弱性。
方法:提出了一种名为MDP的新型轻量级、可插拔和有效的防御机制,利用被污染和清洁样本之间的掩蔽敏感性差距进行识别。
效果:通过基准数据集和代表性攻击的实证评估,验证了MDP的有效性。
Defending against Data-Free Model Extraction by Distributionally Robust Defensive Training
Zhenyi Wang Li Shen Tongliang Liu Tiehang Duan Yanjun Zhu Donglin Zhan David Doermann Mingchen Gao
研究问题:如何防止不依赖原始训练数据分布的黑盒模型复制(DFME)。
动机:现有的防御方法存在计算和内存效率低下,需要对攻击数据分布做出强假设,或者只能在模型窃取发生后延迟攻击或证明模型被窃取等问题。
方法:提出一种名为MeCo的内存和计算高效的防御方法,通过对目标受害者模型进行分布稳健的防御性训练来阻止DFME的发生,同时保持模型效用。具体来说,我们随机化输入,使其:(1)导致攻击者的知识蒸馏损失不匹配;(2)干扰零阶梯度估计;(3)改变攻击查询数据的标签预测。因此,攻击者只能从黑盒模型中提取误导信息。
效果:通过大量的实验,我们发现MeCo可以显著降低现有DFME方法的有效性,并大大提高运行效率。
The Distortion of Binomial Voting Defies Expectation
Yannai Gonczarowski Gregory Kehne Ariel D. Procaccia Ben Schiffer Shirley Zhang
研究问题:本文旨在研究计算社会选择中投票规则的扭曲程度,以克服有限的偏好信息来选择社会可接受的结果。
动机:尽管对投票规则的扭曲进行了广泛研究,但大多数都是从最坏情况的角度进行的。我们希望通过考虑选民效用的潜在分布来研究预期的扭曲。
方法:我们设计并分析了一种新的、直观的规则——二项式投票,该规则为预期的扭曲和预期的福利提供了强大的分布无关保证。
效果:实验结果表明,二项式投票在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Asymmetric Certified Robustness via Feature-Convex Neural Networks
Samuel Pfrommer Brendon G. Anderson Julien Piet Somayeh Sojoudi
研究问题:如何实现机器学习模型的非对称鲁棒性认证,并提高其对攻击的防御能力。
动机:现实中对抗性攻击常常具有非对称结构,攻击者只试图引发假阴性结果。因此需要一种方法来形式化非对称鲁棒性认证问题,并提出相应的解决方案。
方法:提出特征凸神经网络架构,该架构由输入凸神经网络(ICNN)和Lipschitz连续的特征映射组成,以实现非对称对抗鲁棒性。
效果:在恶意软件分类和MNIST、Fashion-MNIST、CIFAR-10数据集子集上进行的实验表明,特征凸分类器可以获得显著的认证$\ell_1$、$\ell_2$和$\ell_{\infty}$-半径,同时比竞争性基线更具计算效率。
Data Minimization at Inference Time
Cuong Tran Ferdinando Fioretto
研究问题:在高风险领域,如法律、银行、招聘和医疗等,学习模型经常依赖敏感的用户信息进行推理,是否需要使用所有输入特征以获得准确的预测?
动机:这不仅可以显著降低个人隐私风险,也可以减少组织验证信息准确性所需的大量人力。
方法:论文中提出了一种高效的序列算法,用于确定每个个体应提供的属性。
效果:实验表明,在个性化设置下,个体可能只需要披露一小部分特征,就能保持与使用全部用户信息的模型相同的决策准确性。
Fairness Aware Counterfactuals for Subgroups
Loukas Kavouras Konstantinos Tsopelas Giorgos Giannopoulos Dimitris Sacharidis Eleni Psaroudaki Nikolaos Theologitis Dimitrios Rontogiannis Dimitris Fotakis Ioannis Emiris
研究问题:本文旨在通过反事实解释审计子群体公平性,提出了一种名为FACTS的框架。
动机:重新审视并广义化现有的子群体公平性概念,提出新的、更精细的子群体公平性概念。
方法:构建了一个模型无关、高效、参数化和可解释的评估子群体公平性的框架。
效果:通过在不同的基准数据集上进行详尽的实验评估,展示了该方法的优势、广泛的应用性和效率。
Optimal privacy guarantees for a relaxed threat model: Addressing sub-optimal adversaries in differentially private machine learning
Georgios Kaissis Alexander Ziller Stefan Kolek Anneliese Riess Daniel Rueckert
研究问题:本文旨在研究在现实威胁模型放松下,缺乏对准确模型训练数据库访问的(次优)攻击者可能拥有相关或部分数据时,如何限制机器学习模型的隐私泄露。
动机:现有的差分隐私机制主要针对强大的(最优)攻击者,而在实际情况中,这类攻击者很少遇到。因此,本文考虑了一个更现实的威胁模型放松情况,即(次优)攻击者缺乏对准确模型训练数据库的访问权限,但可能拥有相关或部分数据。
方法:本文通过假设检验误差的形式,对这种设置下的敌对成员推断能力进行了形式化描述和实验验证。
效果:本文的研究有助于用户在现实威胁模型放松情况下解释敏感数据处理系统的隐私属性,并为他们选择适当的噪声水平。
Fairly Recommending with Social Attributes: A Flexible and Controllable Optimization Approach
Jinqiu Jin Haoxuan Li Fuli Feng Sihao Ding Peng Wu Xiangnan He
研究问题:本文旨在解决推荐模型中的物品侧群体公平性(IGF)问题,即要求推荐模型对不同的物品群体进行相似的处理。
动机:现有的IGF概念只关注物品曝光的直接效用,即不同物品群体之间的曝光数量,而忽视了通过社会影响从邻近用户获得的社会效用,如社交媒体上的信息分享。
方法:本文提出了两种社交属性感知的IGF度量标准,要求在不同物品群体中暴露出的物品上具有相似的用户社交属性。考虑到直接效用和社会效用之间的权衡,我们为训练推荐模型制定了一个新的多目标优化问题,以实现灵活的权衡并确保可控的准确性。为了解决这个问题,我们开发了一种基于梯度的优化算法,并从理论上证明了该算法可以找到具有不同权衡和保证准确性的帕累托最优解。
效果:在两个真实世界数据集上的大量实验验证了我们方法的有效性。
Training Private Models That Know What They Don’t Know
Stephan Rabanser Anvith Thudi Abhradeep Guha Thakurta Krishnamurthy Dj Dvijotham Nicolas Papernot
研究问题:训练可靠的深度学习模型,避免过度自信但错误的预测,特别是在需要保护敏感数据的差分隐私设置下。
动机:在差分隐私约束下,一些流行的选择性预测方法可能会增加隐私泄露的风险,而新的只使用现成私有学习算法生成的检查点的方法则表现出色。
方法:通过全面的实证研究,对选择性分类器进行深入研究,并提出了一种新的评估机制,以分析不同隐私级别下的选择性预测性能。
效果:实验结果表明,虽然可以通过降低覆盖范围来恢复非私有模型的性能水平,但这需要付出相当大的代价。
Predict-then-Calibrate: A New Perspective of Robust Contextual LP
Chunlin Sun Linyu Liu Xiaocheng Li
研究问题:本文旨在解决考虑协变量(上下文或旁信息)的优化问题,即预测模型在测试阶段如何利用协变量来预测目标函数。
动机:现有的方法在选择预测模型或对基础数据做出强假设时存在问题,因此需要一种能够充分利用现有机器学习方法潜力且能独立于预测模型选择进行风险和鲁棒性保证推导的新方法。
方法:提出了一种名为“预测-然后-校准”的通用算法设计范式。首先开发一个不考虑下游风险轮廓或鲁棒性保证的预测模型,然后使用校准(或重新校准)方法量化预测的不确定性。
效果:实验结果表明,预测-然后-校准范式在改善预测模型或校准模型时都能带来更好的最终性能,同时为上下文LP问题提供了新的泛化边界,并阐明了DRO对于上下文LP的现有结果。
Hidden Poison: Machine Unlearning Enables Camouflaged Poisoning Attacks
Jimmy Z. Di Jack Douglas Jayadev Acharya Gautam Kamath Ayush Sekhari
研究问题:在模型再训练可能被引发的情况下,我们引入了伪装数据中毒攻击这一新的攻击向量。
动机:当模型需要重新训练时,攻击者可以通过精心设计的点来影响模型的预测结果。
方法:我们通过构建掩盖毒化数据集影响的伪装数据点,实现了对CIFAR-10、Imagenette和Imagewoof等数据集的干净标签定向攻击。
效果:我们的攻击在从零开始的再训练(机器取消学习的理想化设置,其他高效方法试图模仿)以及Graves等人(2021)的近似取消学习方法中都显示出了有效性。
Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared Adversarial Examples
Shaokui Wei Mingda Zhang Hongyuan Zha Baoyuan Wu
研究问题:本文旨在解决机器学习模型中的后门攻击问题,即攻击者通过在训练集中注入有毒样本,使模型对特定触发器预测到特定的目标类别。
动机:后门攻击是机器学习模型的一种严重安全威胁,需要找到一种方法来清除被后门化的模型。
方法:本文提出了一种新的方法——共享对抗性撤销(SAU),该方法首先生成共享对抗性示例(SAEs),然后撤销生成的SAEs,使得它们能被净化模型正确分类和/或在不同模型中被不同地分类,从而减轻后门化模型中的后门效应。
效果:实验结果表明,该方法在各种基准数据集和网络架构上都取得了最先进的防御后门性能。
Neural Polarizer: A Lightweight and Effective Backdoor Defense via Purifying Poisoned Features
Mingli Zhu Shaokui Wei Hongyuan Zha Baoyuan Wu
研究问题:深度神经网络对后门攻击的敏感性。
动机:受光学偏振器机制的启发,提出一种新的后门防御方法。
方法:在被后门化的模型中插入一个可学习的神经偏振器作为中间层,通过过滤触发信息来净化被污染的样本,同时保留良性信息。
效果:实验表明,该方法在各种神经网络架构和数据集上去除后门的效果和效率都很高,特别是在干净数据非常有限的情况下。
Public Opinion Field Effect Fusion in Representation Learning for Trending Topics Diffusion
Junliang Li Yajun Yang Qinghua Hu Xin Wang Hong Gao
研究问题:本文旨在解决社交媒体中热门话题扩散和预测分析的问题,以及现有方法未考虑公众舆论场效应的问题。
动机:在现实世界中,往往存在多个热门话题或舆论领袖同时出现,形成各自的舆论场,这些舆论场之间的竞争会影响公众舆论的发展。然而,现有的方法并未考虑到这一现象。
方法:本文提出了一种新的异构表示学习框架,引入了公众舆论场效应和社会圈子影响效应,以更准确地预测热门话题的扩散。
效果:通过在真实数据集上的大量实验,验证了该模型的优越性。
Strategic Data Sharing between Competitors
Nikita Tsoy Nikola Konstantinov
研究问题:如何在保护企业利益的同时,通过数据共享提升机器学习模型的性能?
动机:尽管跨组织的数据共享可以提升企业的机器学习模型,但也可能使竞争对手受益,从而影响利润。
方法:提出了一个包含企业生产决策、额外数据对模型质量的影响以及数据共享谈判过程三个部分的分析框架,并基于经济理论的市场模型进行实例化研究。
效果:研究发现市场条件对数据共享的激励有深远影响,具体表现为产品相似度降低和学习任务难度增大会促进数据共享。
Offline Reinforcement Learning with Differential Privacy
Dan Qiao Yu-Xiang Wang
研究问题:如何设计一种具有差分隐私保证的离线强化学习算法,以保护训练数据中个体的敏感信息并防止各种隐私风险。
动机:现有的离线强化学习算法可能会保留训练数据中的个体敏感信息,从而面临各种隐私风险。
方法:设计了一种具有差分隐私保证的离线强化学习算法,该算法在表格和线性马尔可夫决策过程设置下都具有强大的实例依赖学习界限。
效果:理论和模拟表明,与非私有版本相比,对于中等规模的数据集,隐私保证几乎不会降低效用。
Automatic Clipping: Differentially Private Deep Learning Made Easier and Stronger
Zhiqi Bu Yu-Xiang Wang Sheng Zha George Karypis
研究问题:如何进行有效的差分隐私深度学习模型训练。
动机:选择合适的剪切阈值对于在差分隐私下实现高准确性至关重要,但需要为任何差分隐私优化器(包括DP-SGD、DP-Adam、DP-LAMB等)调整R。
方法:提出一种易于使用的替代方案,称为自动剪切,消除了为任何差分隐私优化器调整R的需要。
效果:自动变体与现有的差分隐私优化器一样私密和计算效率高,但不需要特定的差分隐私超参数,使差分隐私训练变得容易,如同标准的非私有训练。在非凸设置中对自动DP-SGD进行了严格的收敛性分析,表明在样本梯度的对称梯度噪声假设下(通常用于非DP文献),它可以享受与标准SGD匹配的渐近收敛率。在各种语言和视觉任务上展示了自动剪切可以超越或匹配最先进的技术,并且可以轻松地与现有的代码库一起使用,只需进行最小的更改。
Unbounded Differentially Private Quantile and Maximum Estimation
David Durfee
研究问题:本文研究了在没有数据集上界的情况下,如何高效地计算数据的分位数,特别是最高分位数如最大值。
动机:目前的分位数计算方法在处理无界数据集时效率低下,且无法保证良好的隐私保护。
方法:通过调用"AboveThreshold"子程序,即使在没有数据上界的情况下,也可以有效地进行分位数计算。该过程迭代地应用在基础的稀疏向量技术中。
效果:实验结果表明,该方法可以更准确、更稳健地估计最高分位数,对于差分隐私求和和均值估计中的裁剪操作至关重要。此外,两次调用可以处理完全无界的数据集。
The Target-Charging Technique for Privacy Analysis across Interactive Computations
Edith Cohen Xin Lyu
研究问题:本文提出了一种名为“目标收费技术”的统一的隐私分析框架,用于多次使用差分隐私算法访问敏感数据集的交互式设置。
动机:传统的组合方法中,随着访问次数的增加,隐私保证会迅速恶化,而TCT允许那些未达到指定“目标”的计算基本上免费(而对那些达到目标的计算则产生少量开销)。
方法:TCT从私有候选者中选择top-k和稀疏向量技术等工具,并将其显著的隐私增强效益从噪声Lipschitz函数扩展到一般的私有算法。
效果:实验结果表明,TCT在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Calibrating “Cheap Signals” in Peer Review without a Prior
Yuxuan Lu Yuqing Kong
研究问题:如何减少同行评审中的噪声和偏见,提高论文排名的公正性?
动机:现有的平均评分方法无法有效消除评审中的噪声和偏见,导致论文排名结果不公。
方法:提出一种无需任何先验信息的一次性噪声校准过程,让评审者预测他人的评分进行校准。
效果:实验证明,校准后的评分比平均评分更能抵抗噪声和偏见的影响,且随着评审者数量的增加,其误差概率趋近于零。
Strategyproof Voting under Correlated Beliefs
Daniel Halpern Rachel Li Ariel D. Procaccia
研究问题:在投票理论中,当选民对候选人有排名偏好时,Gibbard-Satterthwaite定理基本上排除了选择赢家的合理策略方法的存在。如果我们将策略性放宽到只适用于对他人偏好有信念的贝叶斯选民呢?
动机:当选民相信其他参与者的排名是独立从固定分布中抽取时,这种不可能性仍然存在。然而,选民认为其他投票是相关的,无论是彼此之间还是与他们自己的排名相关,这是相当合理的。
方法:我们考虑了社会选择中的经典概率模型如马洛尔斯、普拉克特-卢卡斯和瑟斯顿-莫斯特勒模型所引发的信念。我们特别挑选出多数票规则(选择排名第一的候选人)作为一个特别有希望的选择,因为它对于包含我们引入的特定信念的大类信念来说是策略性的。
效果:最后,我们给出了在这种信念类别中,多数票是唯一具有这种属性的位置评分规则的例子:当有足够的选民时,没有其他评分规则是对马洛尔斯模型引发的信念的策略性的。进一步支持多数票的观点是,一些著名的非评分投票规则在这种信念类别上无法做到策略性。
A normative theory of social conflict
Sergey A. Shuvaev Evgeny M Amelchenko Dmitry Smagin Natalia Kudryavtseva Grigori Enikolopov Alexei A. Koulakov
研究问题:本研究旨在通过收集和分析小鼠在社会冲突中的行为和全脑神经数据,理解其背后的原理。
动机:社会冲突是一种生存机制,可以产生正常和病理行为。为了揭示其底层原理,研究人员对小鼠进行了实验。
方法:研究人员将动物的交互模拟为一个正则形式游戏,使用贝叶斯推理来处理动物力量的部分可观察性。他们发现,行为和神经数据与一级心理理论(1-ToM)模型一致,即小鼠对所有涉及的小鼠的力量形成“主要”信念,并对对手的信念进行“次要”估计。
效果:该模型确定了携带这些信念信息的大脑区域,并为部分可观察环境中的社会行为研究提供了一个框架。
GlucoSynth: Generating Differentially-Private Synthetic Glucose Traces
Josephine Lamp Mark Derdzinski Christopher Hannemann Joost Van der Linden Lu Feng Tianhao Wang David Evans
研究问题:本文旨在解决生成高质量、私人的合成葡萄糖轨迹的问题,这是一个可以推广到许多其他时间序列来源的任务。
动机:现有的时间序列数据合成方法,如使用生成对抗网络(GANs)的方法,无法捕捉葡萄糖数据的内在特性,并且在没有严重降低合成数据的效用的情况下,无法提供任何形式的数据隐私保证。
方法:本文提出了GlucoSynth,一种新的保护隐私的GAN框架,用于生成合成的葡萄糖轨迹。我们方法的核心理念是保留轨迹中模式(葡萄糖事件)之间的关系,以及时间动态。我们的框架结合了差分隐私机制,以提供强大的形式化隐私保证。
效果:通过对120万条葡萄糖轨迹进行综合评估,我们发现GlucoSynth在生成高质量的合成葡萄糖轨迹和提供强大的隐私保证方面优于所有先前的方法。
Transferable Adversarial Robustness for Categorical Data via Universal Robust Embeddings
Klim Kireev Maksym Andriushchenko Carmela Troncoso Nicolas Flammarion
研究问题:当前对抗性鲁棒性的研究主要集中在图像和文本数据上,但在欺诈检测、医疗诊断或推荐系统等场景中,缺乏鲁棒性可能会带来严重风险,这些场景通常依赖的是表格数据。
动机:表格数据中的对抗性鲁棒性存在两个主要挑战。首先,表格数据集通常包含分类特征,因此无法直接使用现有的优化程序进行处理。其次,在表格领域广泛使用的非深度网络算法性能优秀,但增强鲁棒性的算法通常是针对神经网络(如对抗性训练)的。
方法:本文提出了一种方法,可以对表格数据进行对抗性鲁棒的深度网络训练,并通过适用于分类数据的通用鲁棒嵌入将这种鲁棒性转移到其他分类器上。这些嵌入是通过双层交替最小化框架创建的,可以转移到提升树或随机森林上,使它们在无需对抗性训练的情况下变得鲁棒,同时保持其在表格数据上的高准确性。
效果:实验结果表明,本文的方法在适用于表格数据的实际威胁模型中优于现有技术。
BERT Lost Patience Won't Be Robust to Adversarial Slowdown
Zachary Coalson Gabriel Ritter Rakesh B Bobba Sanghyun Hong
研究问题:本文旨在评估多出口语言模型对抗对抗性减速的鲁棒性。
动机:设计了一种通过早期退出点生成自然对抗文本的减速攻击,以检验其鲁棒性。
方法:使用这种攻击作为工具,对三种多出口机制进行综合评估,并与GLUE基准测试进行对抗性减速对比。
效果:实验结果表明,该攻击显著降低了三种方法在白盒和黑盒设置中的计算节省量。更复杂的机制更容易受到对抗性减速的影响。此外,我们发现对抗性训练无法击败我们的减速攻击,但使用如ChatGPT的对话模型进行输入清理可以有效去除扰动。这提示未来的工作需要开发高效且鲁棒的多出口模型。
On Measuring Fairness in Generative Models
Christopher T.H Teo Milad Abdollahzadeh Ngai-man Cheung
研究问题:现有的公平性测量框架存在较大的测量误差,影响对公平生成模型的评估。
动机:为了解决这一问题,提出了一种新的公平性测量框架CLEAM,以减少在敏感属性分类器中的误差。
方法:通过使用统计模型来考虑敏感属性分类器的不准确性,从而降低测量误差。
效果:实验结果表明,CLEAM可以显著降低测量误差,并在重要的文本到图像生成器和GANs中揭示了相当大的偏见,引发了对其应用的关注。
The Memory-Perturbation Equation: Understanding Model's Sensitivity to Data
Peter Nickl Lu Xu Dharmesh Tailor Thomas Möllenhoff Mohammad Emtiyaz Khan
研究问题:理解模型对其训练数据的敏感性是关键,但也可能是具有挑战性和昂贵的,特别是在训练过程中。
动机:为了简化这些问题,我们提出了记忆扰动方程(MPE),该方程将模型的敏感性与其训练数据的扰动联系起来。
方法:使用贝叶斯原理推导出的MPE统一了现有的敏感性度量,将其推广到各种模型和算法,并揭示了关于敏感性的有用属性。
效果:我们的实证结果表明,在训练过程中获得的敏感性估计可以用于准确预测未见过测试数据上的泛化能力。预期这个提出的方程将对未来的鲁棒和自适应学习研究有所帮助。
Enhancing Sharpness-Aware Optimization Through Variance Suppression
Bingcong Li Georgios B. Giannakis
研究问题:如何通过最小化最大损失来提高深度神经网络的泛化能力。
动机:尽管在没有大量数据增强的情况下,已有的证据表明锐度感知最小化(SAM)在提高深度神经网络的泛化能力方面具有显著的优点,但是过于友好的攻击者可能会削弱模型的最外层泛化能力。
方法:本文提出了一种新的方法,通过抑制攻击者的方差(VaSSO)来稳定攻击者,以避免其过于友好。这种方法的数学稳定性保证了其在模型无关任务上比SAM有所改进,包括图像分类和机器翻译。
效果:实验证明,VaSSO使SAM具有对抗高级别标签噪声的鲁棒性。
Rehearsal Learning for Avoiding Undesired Future
Tian Qin Tian-Zuo Wang Zhi-Hua Zhou
研究问题:如何通过机器学习模型做出决策以避免未来不良结果?
动机:目前的机器学习模型主要进行预测,但在某些情况下,我们更希望找到能够避免不良结果的决策。
方法:提出一种复习学习框架,通过影响关系和贝叶斯框架下的结构方程,找出可以改变结果的可行动决策。
效果:实验验证了复习学习框架的有效性和风险估计的准确性。
Have it your way: Individualized Privacy Assignment for DP-SGD
Franziska Boenisch Christopher Mühl Adam Dziedzic Roy Rinberg Nicolas Papernot
研究问题:现有的使用差分隐私训练机器学习模型的方法中,所有用户使用统一的隐私预算可能无法满足不同用户的隐私期望。
动机:由于不同的用户可能有不同的隐私期望,因此对所有点设置统一的隐私预算可能对某些用户过于保守,或对其他用户保护不足。
方法:通过个性化的隐私预算来满足这些偏好,并引入了一种支持这种个性化预算的差分隐私随机梯度下降(DP-SGD)的变体,称为个体化DP-SGD(IDP-SGD)。
效果:由于IDP-SGD提供了符合个别用户及其数据点的偏好的隐私保证,因此实证发现它可以改善隐私-效用权衡。
Bucks for Buckets (B4B): Active Defenses Against Stealing Encoders
Jan Dubiński Stanisław Pawlak Franziska Boenisch Tomasz Trzcinski Adam Dziedzic
研究问题:预训练语言模型如何利用知识图谱中的有信息量的实体来增强语言表示?
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Beyond Confidence: Reliable Models Should Also Consider Atypicality
Mert Yuksekgonul Linjun Zhang James Zou Carlos Guestrin
研究问题:本研究旨在探究机器学习模型预测的可靠性与样本或类别的非典型性之间的关系。
动机:虽然大多数机器学习模型可以为其预测提供信心,但仅凭信心无法理解预测的可靠性。例如,如果输入在训练数据集中表示不佳或输入本质上模糊不清,模型可能会产生低信心的预测。
方法:我们首先证明非典型性与误校准和准确性有强烈的关联。具体来说,我们通过实证发现,对于非典型输入或非典型类别的预测,其信心过高且准确率较低。然后,我们展示了将非典型性纳入考量可以提高神经网络和大型语言模型的不确定性量化和性能。
效果:在一个案例研究中,我们发现在使用不同肤色组别但没有访问组属性的情况下,使用非典型性可以提高皮肤损伤分类器的性能。总的来说,我们建议模型不仅应使用信心,还应使用非典型性来提高不确定性量化和性能。我们的研究结果表明,简单的后验非典型性估计器可以提供显著的价值。
Temporal Robustness against Data poisoning
Wenxiao Wang Soheil Feizi
研究问题:现有的数据投毒威胁模型主要关注被投毒样本的数量,如果攻击者能以较低的成本投毒比预期更多的样本,他们可能会在短时间内使现有的防御措施失效。
动机:为了解决这个问题,我们利用了通常可用但在过去被忽视的数据的出生日期时间戳。
方法:我们提出了一个基于时间的威胁模型,引入了两个新的指标:早期和持续时间,分别衡量攻击开始提前多久以及攻击持续多久。
效果:通过这个模型,我们定义了对数据投毒的时间鲁棒性的概念,即使有无限量的被投毒样本,只要攻击是时间有限的,也能提供有意义的保护。我们还开发并验证了一种基线防御策略,即时间聚合,它提供了可证明的时间鲁棒性,并突出了我们的时间威胁模型在数据投毒方面的潜力。
Enhancing User Intent Capture in Session-Based Recommendation with Attribute Patterns
Xin Liu Zheng Li Yifan Gao Jingfeng Yang Tianyu Cao Zhengyang Wang Bing Yin Yangqiu Song
研究问题:电子商务中基于会话的推荐系统旨在预测匿名用户将根据浏览和购买历史购买的下一个商品。
动机:构建全局或局部转换图以补充会话数据可能导致噪声关联和用户意图消失。
方法:我们提出了频繁属性模式增强变压器(FAPAT),通过构建属性转移图和匹配属性模式来描述用户意图。具体来说,频繁且紧凑的属性模式被用作内存以增强会话表示,然后通过一个门和一个变压器块融合整个会话信息。
效果:通过对两个公共基准测试和三个领域的1亿工业数据的大量实验,我们发现FAPAT在各种评估指标(命中,NDCG,MRR)上平均比最先进的方法高出4.5%,表现出色。此外,我们还通过预测商品属性和周期-商品推荐来评估模型捕获用户意图的能力。
topic-6
learning policy reinforcement rl agent reward offline state
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
Rafael Rafailov Archit Sharma Eric Mitchell Christopher D Manning Stefano Ermon Chelsea Finn
研究问题:如何使大规模无监督语言模型(LMs)的行为更精确可控。
动机:现有的获取可控性的方法需要收集人类对模型生成的相对质量的标签,并通过强化学习进行微调,但这种方法复杂且不稳定。
方法:本文提出了一种直接偏好优化(DPO)算法,通过在奖励函数和最优策略之间建立映射,将约束的奖励最大化问题转化为一个分类问题进行优化。
效果:实验表明,DPO能以优于或等同于现有方法的效果使LMs与人类偏好对齐,同时其实现和训练过程更简单,且无需拟合奖励模型、在微调过程中采样或进行大量的超参数调整。
DiffuseBot: Breeding Soft Robots With Physics-Augmented Generative Diffusion Models
Tsun-Hsuan Wang Juntian Zheng Pingchuan Ma Yilun Du Byungchul Kim Andrew Everett Spielberg Joshua B. Tenenbaum Chuang Gan Daniela Rus
研究问题:如何优化人工生物形态和控制,以应用于物理软机器人和虚拟角色创建。
动机:自然进化出具有高度形态和行为智能的生物,而计算方法在接近这种多样性和有效性方面滞后。
方法:提出了DiffuseBot,这是一种物理增强的扩散模型,可以生成在各种任务中表现出色的软机器人形态。DiffuseBot通过(i)用提供性能证书的物理动态模拟增强扩散过程,以及(ii)引入联合设计过程,利用来自可微分模拟的物理敏感性信息来共同优化物理设计和控制,从而弥合了虚拟生成内容和物理效用之间的鸿沟。
效果:展示了一系列模拟和制造的机器人及其能力。
When Demonstrations meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning
Siliang Zeng Chenliang Li Alfredo Garcia Mingyi Hong
研究问题:本文旨在解决离线逆强化学习(Offline IRL)中,从专家代理的固定、有限的动作演示中恢复奖励和环境动态结构的问题。
动机:在安全敏感的应用如临床决策和自动驾驶中,准确执行任务的专家模型具有重要应用价值。然而,专家偏好的结构与专家对环境动态(即“世界”)的模型密切相关。因此,从有限数据和有限覆盖范围中获得的世界模型不准确可能会增加估计奖励的误差。
方法:本文提出了一种双层优化的奖励估计任务,其中上层是基于专家策略(下层)的保守模型的最大似然最大化。策略模型是保守的,因为它在奖励最大化的同时,会受到一个惩罚,该惩罚随着估计的世界模型的不确定性的增加而增加。本文还提出了一个新的算法框架来解决双层优化问题,并为相关的最优奖励估计器提供了统计和计算性能保证。
效果:实验结果表明,所提出的算法在MuJoCo的连续控制任务和D4RL基准测试集中的不同数据集上,显著优于最新的离线IRL和模仿学习基准测试。
Bridging RL Theory and Practice with the Effective Horizon
Cassidy Laidlaw Stuart Russell Anca Dragan
研究问题:深度强化学习在一些环境中表现出色,而在另一些环境中却失败得彻底。理想的情况是,强化学习理论应该能够解释为什么会这样,即预测实际性能的界限。
动机:当前的强化学习理论并不能很好地解释深度强化学习的成败原因。因此,研究人员引入了一个新的数据集BRIDGE,以比较标准的深度强化学习算法和先前的样本复杂度界限。
方法:通过分析155个常见深度强化学习基准测试中的马尔可夫决策过程(MDP)及其相应的表格表示形式,研究人员可以精确计算实例依赖的界限。他们发现,当随机策略下具有最高Q值的动作也是最优策略下具有最高Q值的动作时,深度强化学习往往成功;反之,则往往失败。
效果:研究人员将这一特性概括为一种新的MDP复杂性度量,称为“有效视距”。利用BRIDGE数据集,他们证明了基于有效视距的界限比先前的样本复杂度界限更能反映PPO和DQN的实际性能。此外,与现有的界限不同,有效视距还可以预测使用奖励塑造或预训练探索策略的效果。
When Do Transformers Shine in RL? Decoupling Memory from Credit Assignment
Tianwei Ni Michel Ma Benjamin Eysenbach Pierre-Luc Bacon
研究问题:强化学习算法面临的两个主要挑战是学习和表示过去的观察结果,以及确定行动如何影响未来的回报。这两个挑战都涉及到长期依赖性的建模。
动机:Transformer架构在解决涉及长期依赖性的问题方面非常成功,包括在强化学习领域。然而,基于Transformer的强化学习方法的强大性能背后的根本原因尚不清楚:是因为它们学习了有效的记忆,还是因为它们进行了有效的信用分配?
方法:我们引入了内存长度和信用分配长度的正式定义,并设计了简单的可配置任务来测量这些不同的数量。
效果:实证结果表明,Transformers可以增强RL算法的内存能力,扩展到需要记住1500步前的观察结果的任务。然而,Transformers并没有改善长期的信用分配。总的来说,我们的研究结果为Transformers在RL中的成功提供了解释,同时也强调了一个值得未来研究和基准设计的重要领域。
From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces
Peter Shaw Mandar Joshi James Cohan Jonathan Berant Panupong Pasupat Hexiang Hu Urvashi Khandelwal Kenton Lee Kristina Toutanova
研究问题:如何利用像素级截图和键盘鼠标操作的通用动作空间,训练出能超越人类众包工作者在图形用户界面(GUI)任务上表现的数字代理。
动机:现有的数字代理主要依赖从HTML或其他结构化数据源提取的文本表示,这并不总是可用的。这些输入表示通常与特定于任务的动作空间相结合。
方法:本文通过像素级预训练的方法,创建了能使用人类常用的概念接口——像素级截图和对应键盘鼠标操作的通用动作空间来与数字世界交互的代理。
效果:首次证明这种代理能够在基于GUI的任务中超越人类众包工作者,表现出色。
Relax, it doesn’t matter how you get there: A new self-supervised approach for multi-timescale behavior analysis
Mehdi Azabou Michael Jacob Mendelson Nauman Ahad Maks Sorokin Shantanu Thakoor Carolina Urzay Eva L Dyer
研究问题:如何预测动物在复杂和不可预测的自然环境中的行为?
动机:现有的模型在预测动物在自由和自然状态下的行为时,效果不佳。
方法:开发了一种多任务表示学习模型,结合了动作预测目标和多尺度架构,以捕捉局部和全局动态。
效果:在机器人和MABe 2022多代理行为挑战赛中,该模型在所有情况下都表现出色,能够解决各种下游任务。
Double Gumbel Q-Learning
David Yu-Tung Hui Aaron Courville Pierre-Luc Bacon
研究问题:本文旨在解决深度神经网络在Q学习中引入的两种异方差Gumbel噪声源问题。
动机:为了应对这些噪声源,我们提出了双Gumbel Q学习,这是一种适用于离散和连续控制的深度Q学习算法。
方法:在离散控制中,我们为该算法的损失函数推导出了一个封闭形式的表达式。而在连续控制中,这个损失函数是难以处理的,因此我们推导出了一个近似值,其中包含一个调节Q学习的悲观程度的超参数。
效果:我们在33个来自DeepMind Control、MuJoCo、MetaWorld和Box2D的任务上展示了DoubleGum的表现优于DDPG、TD3、SAC、XQL、分位数回归和混合高斯评论家。同时,我们还发现调整这个超参数可能会进一步提高样本效率。
Sample Efficient Reinforcement Learning in Mixed Systems through Augmented Samples and Its Applications to Queueing Networks
Honghao Wei Xin Liu Weina Wang Lei Ying
研究问题:本文考虑了一类涉及两种状态的强化学习问题,即随机状态和伪随机状态。
动机:在这类系统中,随机状态遵循随机转换核,而伪随机状态的转换则是确定的,给定随机状态/转换。我们称这样的系统为混合系统,它们在各种应用中广泛使用,包括制造系统、通信网络和排队网络。
方法:我们提出了一种样本高效的强化学习方法,通过生成增强的数据样本来加速学习。该方法是数据驱动的(模型自由),但它从真实和增强样本的数据样本中学习策略。这种方法显著提高了学习效率,减少了样本复杂度,使得数据集只需要对随机状态有足够的覆盖即可。
效果:我们在适应的Q迭代(FQI)下分析了所提出方法的样本复杂度,并证明最优性差距减小为 $O\left(\sqrt{\frac{1}{n}}+\sqrt{\frac{1}{m}}\right)$,其中 n 代表真实样本的数量,m 是每个真实样本的增强样本数量。值得注意的是,如果没有增强样本,由于伪随机状态的数据覆盖不足,最优性差距为 O(1)。我们在多个排队网络应用上的实验结果证实,所提出的方法确实显著加速了深度 Q-学习和深度政策梯度。
Future-Dependent Value-Based Off-Policy Evaluation in POMDPs
Masatoshi Uehara Haruka Kiyohara Andrew Bennett Victor Chernozhukov Nan Jiang Nathan Kallus Chengchun Shi Wen Sun
研究问题:本文旨在研究部分可观察马尔可夫决策过程(POMDPs)的部分可观察策略评估(OPE)。
动机:现有的方法如序列重要性采样估计器和拟合Q评估在POMDPs中受到视程的困扰。
方法:通过引入未来依赖值函数,该方法以未来代理作为输入,从而开发了一种新颖的无模型OPE方法。
效果:实验结果表明,只要未来和历史包含关于潜在状态的足够信息以及贝尔曼完备性,我们的OPE估计器就会接近真实策略值。
Would I have gotten that reward? Long-term credit assignment by counterfactual contribution analysis
Alexander Meulemans Simon Schug Seijin Kobayashi Nathaniel Daw Greg Wayne
研究问题:如何提高强化学习中的样本效率,实现更好的奖励分配方法。
动机:目前的强化学习方法在奖励分配上存在偏差和方差大的问题,需要更精确的奖励分配方法来提高样本效率。
方法:基于事后视角奖励分配(HCA),提出反事实贡献分析(COCOA)这一新的基于模型的奖励分配算法族。该算法通过测量行动对后续奖励的影响,并通过量化反事实查询:“如果代理采取另一种行动,是否仍能达到此奖励?”来实现精确的奖励分配。
效果:实验结果表明,相比于HCA,该方法能降低偏差和方差,从而提高样本效率。这为强化学习提供了一条新的路径。
Regularized Behavior Cloning for Blocking the Leakage of Past Action Information
Seokin Seo HyeongJoo Hwang Hongseok Yang Kee-Eung Kim
研究问题:在部分可观察环境中,当过去的动作信息泄露到观察历史中时,通过行为克隆的模仿学习经常会导致模型模仿自己的过去动作,从而引发灾难性失败。
动机:为了解决这个问题,本文提出了一种名为“过去动作泄漏正则化”(PALR)的原则性正则化方法。
方法:该方法的主要思想是利用条件独立性的概念来减轻信息泄露的影响。我们比较了不同的条件独立度度量和其估计器的实例,结果显示使用基于核的估计器效果最好。
效果:我们在基准数据集上进行了广泛的实验,以评估我们的正则化方法的效果。实验结果表明,我们的方法显著优于先前的相关方法,显示出在过去的动作信息泄露到观察历史中时成功模仿专家动作的潜力。
HIQL: Offline Goal-Conditioned RL with Latent States as Actions
Seohong Park Dibya Ghosh Benjamin Eysenbach Sergey Levine
研究问题:如何直接从大量无标签(奖励自由)数据中学习,特别是在强化学习中实现目标条件RL。
动机:尽管强化学习中的直接目标条件RL有潜力利用大量的无标签数据,但直接从多样化的离线数据中构建有效的算法是具有挑战性的,因为对遥远的目标准确估计精确的价值函数很困难。
方法:提出了一种基于离线数据的分层算法进行目标条件RL。通过使用一个无动作价值函数,我们学习了两种策略来利用这种结构:一种是将状态视为动作并预测子目标(潜在表示)的高级策略;另一种是预测达到这个子目标的动作的低级策略。
效果:通过分析和示例,我们展示了这种分层分解使我们的方法对估计价值函数中的噪声具有鲁棒性。我们将该方法应用于离线目标达成基准测试,表明我们的方法可以解决阻碍先前方法的长期任务,可以扩展到高维图像观察,并且可以轻松利用无动作数据。
Behavior Alignment via Reward Function Optimization
Dhawal Gupta Yash Chandak Scott M. Jordan Philip S. Thomas Bruno Castro da Silva
研究问题:设计有效的奖励函数以引导强化学习(RL)代理实现特定行为是一项复杂的任务。
动机:由于需要识别非稀疏的奖励结构并避免无意中引发不良行为,因此这是一项具有挑战性的任务。
方法:我们引入了一个新的框架,使用双层目标来学习“行为对齐奖励函数”。这些函数将反映设计师启发式和领域知识的辅助奖励与环境的主要奖励相结合。
效果:通过在各种任务上进行评估,包括小规模实验和高维控制挑战,我们发现该方法不仅解决了现有方法的关键缺点,而且即使在给定的辅助奖励函数不准确或质量较差的情况下,也能始终产生高性能的解决方案。
Learning Universal Policies via Text-Guided Video Generation
Yilun Du Sherry Yang Bo Dai Hanjun Dai Ofir Nachum Joshua B. Tenenbaum Dale Schuurmans Pieter Abbeel
研究问题:本文旨在利用文本引导的图像合成技术,将序列决策问题转化为文本条件的视频生成问题,以构建更通用的智能代理。
动机:受文本引导的图像合成技术在生成复杂新颖图像方面取得的成功启发,研究人员希望探索这类工具是否能用于构建更通用的智能代理。
方法:通过将规划器生成的未来帧集合描述为未来计划行动的视频,从生成的视频中提取控制动作,实现了基于文本编码的目标规范的序列决策问题转化为文本条件的视频生成问题。
效果:该方法能够自然地、组合地推广到新的目标上,并能在不同的状态和动作空间环境中统一表示为图像空间,例如,实现在不同机器人操作任务之间的学习和泛化。此外,通过利用预训练的语言嵌入和互联网上的广泛可用视频,该方法可以实现对真实机器人的高度逼真的视频计划的知识转移。
Continual Learning for Instruction Following from Realtime Feedback
Alane Suhr Yoav Artzi
研究问题:如何通过用户在协作互动中提供的反馈,持续训练一个遵循指令的代理。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
Bill Yuchen Lin Yicheng Fu Karina Yang Faeze Brahman Shiyu Huang Chandra Bhagavatula Prithviraj Ammanabrolu Yejin Choi Xiang Ren
研究问题:本文旨在设计一种名为SwiftSage的新型代理框架,以优化复杂交互式推理任务的行动规划。
动机:受到人类认知的双重过程理论的启发,SwiftSage结合了行为克隆和大型语言模型(LLMs)的优点,以提高任务完成性能。
方法:该框架主要由两个模块组成:快速直观思考的Swift模块和模拟深思熟虑的思维过程的Sage模块。Swift模块是一个小型的编码器-解码器LM,在oracle代理的动作轨迹上进行微调;而Sage模块则使用GPT-4等LLMs进行子目标规划和基础设定。
效果:在科学世界基准测试中的30个任务中,SwiftSage显著优于SayCan、ReAct和Reflexion等其他方法,证明了其在解决复杂交互式任务方面的有效性。
Honesty Is the Best Policy: Defining and Mitigating AI Deception
Francis Rhys Ward Francesca Toni Francesco Belardinelli Tom Everitt
研究问题:本文旨在解决AI系统中的欺骗行为对安全性、可信度和合作性的挑战。
动机:现有的定义无法全面解释学习代理在游戏中的欺骗行为,因此需要提出一个适用于真实世界机器学习系统的正式定义。
方法:在结构因果游戏中引入一个基于哲学文献的正式欺骗定义,并提供图形化标准。
效果:实验证明,这些结果可以用于减轻强化学习代理和语言模型中的欺骗行为。
Learning from Active Human Involvement through Proxy Value Propagation
Zhenghao Peng Wenjie Mo Chenda Duan Quanyi Li Bolei Zhou
研究问题:本文旨在解决AI系统中的欺骗行为对安全性、可信度和合作性的挑战。
动机:现有的定义无法全面解释学习代理在游戏中的欺骗行为,因此需要提出一个适用于真实世界机器学习系统的正式定义。
方法:在结构因果游戏中引入一个基于哲学文献的正式欺骗定义,并提供图形化标准。
效果:实验证明,这些结果可以用于减轻强化学习代理和语言模型中的欺骗行为。
Calibrated Stackelberg Games: Learning Optimal Commitments Against Calibrated Agents
Nika Haghtalab Chara Podimata Kunhe Yang
研究问题:本文旨在对标准斯塔克尔伯格博弈(SGs)框架进行一般化,提出校准的斯塔克尔伯格博弈(CSGs)。
动机:在标准的斯塔克尔伯格博弈中,代理人直接获取委托人的行动信息。然而,在校准的斯塔克尔伯格博弈中,代理人无法直接获取委托人的行动信息,而是通过对委托人行动的校准预测来进行最佳反应。这种模型能够更好地处理现实生活中的应用,并且比标准的斯塔克尔伯格博弈更具鲁棒性。
方法:本文提出了一种获得自适应校准算法的通用方法,并将其应用于有限规模的CSGs。同时,我们还引入了更强的校准概念——适应性校准,它可以在任何时间提供精细的校准保证,以抵御对抗序列。
效果:本文的主要技术成果表明,在CSGs中,委托人可以在有限和连续的设置中实现收敛到游戏最优斯塔克尔伯格值的效用,并且无法实现更高的效用。此外,我们的结果还立即应用在斯塔克尔伯格安全博弈的学习设置和战略分类中,这两种情况下的代理人都是经过校准的。
A Robust and Opponent-Aware League Training Method for StarCraft II
Ruozi Huang Xipeng Wu Hongsheng Yu Zhong Fan Haobo Fu QIANG FU Yang Wei
研究问题:训练一个超越人类的人工智能(AI)在类似《星际争霸II》的游戏中是非常困难的。
动机:AlphaStar是第一个使用联赛训练框架,通过游戏理论方法在《星际争霸II》完整游戏中击败人类专业人士的AI。本文旨在改进AlphaStar的联赛训练。
方法:我们训练目标驱动的探索者,其发现主要代理和整个联盟弱点的能力比AlphaStar中的无条件探索者大大提高。此外,我们还赋予联盟中的代理对手建模的新能力,使代理更能响应对手的实时策略。
效果:基于这些改进,我们在比AlphaStar少几个数量级的资源下训练出更好、超越人类的AI(见表1的全面比较)。考虑到《星际争霸II》在游戏AI研究中的象征性角色,我们相信我们的方法及结果为如何在各种大规模真实世界的游戏中利用通用联赛训练框架获得最低可攻击策略提供了有价值的设计原则。
Coherent Soft Imitation Learning
Joe Watson Sandy Huang Nicolas Heess
研究问题:本研究旨在解决模仿学习中的策略选择问题,即在行为克隆(BC)和逆强化学习(IRL)之间做出选择。
动机:由于示范的质量和状态-动作覆盖度以及额外对马尔可夫决策过程的访问,BC和IRL的选择对于模仿学习至关重要。然而,混合策略(结合BC和IRL)很少见,因为初始的政策优化对抗不准确的奖励会减少用BC预训练政策的益处。
方法:本研究提出了一种模仿学习方法,该方法捕捉了BC和IRL的优势。在熵正则化(“软”)强化学习设置中,我们证明了可以通过反向正则化策略更新来将行为克隆的策略用作塑造的奖励和批评者假设空间。这种一致性促进了使用奖励估计和与环境的额外交互来微调克隆的策略。这种方法通过初始的行为克隆和随后的利用在线或离线数据源的RL进行细化,方便地实现了模仿学习。
效果:该方法的简单性使得能够优雅地扩展到高维和基于视觉的任务,与对抗性方法相比,具有稳定的学习和最小的超参数调整。
Survival Instinct in Offline Reinforcement Learning
Anqi Li Dipendra Misra Andrey Kolobov Ching-An Cheng
研究问题:本文探讨了离线强化学习(RL)算法的行为,特别是在使用错误的奖励标签进行训练时的表现。
动机:作者发现,即使在使用“错误”的奖励标签(例如,所有地方都是零或真实奖励的负值)进行训练时,离线RL也能在许多基准数据集上产生表现良好且安全的策略。这种现象不能用离线RL的回报最大化目标来解释。
方法:作者认为这种令人惊讶的稳健性属性是由于离线RL算法中的悲观主义概念与常见数据收集实践中的某些隐含偏见之间的相互作用。悲观主义使代理具有生存本能,即长期保持在数据支持范围内的激励,而有限且有偏的数据覆盖进一步限制了生存策略集。
效果:作者的理论和实证结果表明,对于给定的奖励类别(可能甚至不包含真实的奖励),如果满足某些训练数据分布的条件,离线RL可以从该类别中的任何奖励中学习到接近最优和安全的策略。作者建议在解释现有离线RL基准结果或创建未来基准时,应考虑生存本能。
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration
Zhihan Liu Miao Lu Wei Xiong Han Zhong Hao Hu Shenao Zhang Sirui Zheng Zhuoran Yang Zhaoran Wang
研究问题:在强化学习中,如何平衡探索和利用以实现最优策略。
动机:现有的样本高效算法通常需要数据依赖的级数约束或复杂的采样过程来鼓励探索,这在实践中难以实施。
方法:提出一种名为“最大化探索”(MEX)的易于实施的强化学习框架,只需优化一个整合估计和计划组件并自动平衡探索和利用的目标。
效果:理论上,证明了MEX在一般函数逼近器下实现了次线性遗憾,并可扩展到零和马尔科夫游戏设置。同时,通过修改深度RL基线,设计了模型基础和无模型设置的MEX实践版本,并在各种稀疏奖励的MuJoCo环境中稳定地超越了基线。与现有具有一般函数逼近器的样本高效算法相比,MEX在保持相似的样本效率的同时,计算成本更低,并且更符合现代深度RL方法。
Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning
Shenzhi Wang Qisen Yang Jiawei Gao Matthieu Gaetan Lin HAO CHEN Liwei Wu Ning Jia Shiji Song Gao Huang
研究问题:本文旨在解决离线到在线强化学习中存在的分布偏移问题,并提出一种通用有效的框架。
动机:现有的解决方案通常采用单一的策略改进和约束平衡来处理分布偏移问题,但这种方法可能无法充分利用每个收集的样本,因为不同状态下的数据质量存在显著差异。
方法:本文提出了家庭离线到在线强化学习(FamO2O)框架,该框架利用一个通用模型训练具有不同改进/约束强度的策略族,并使用一个平衡模型为每个状态选择适当的策略。
效果:实验结果表明,FamO2O在各种现有方法上取得了显著改进,并在D4RL基准测试中达到了最先进的性能。
Convex-Concave Zero-Sum Stochastic Stackelberg Games
Denizalp Goktas Arjun Prakash Amy Greenwald
研究问题:本文旨在开发一种政策梯度方法,通过从观察到的游戏轨迹中计算的有噪声研究问题:本文旨在开发一种政策梯度方法,通过从观察到的游戏轨迹中计算的有噪声的梯度估计值来解决一类从经济学到人机交互的大规模问题。
动机:零和随机斯塔克尔伯格博弈可以用来模拟从经济学到人机交互的大量问题。作者希望通过开发新的算法,能够更有效地解决这类问题。
方法:作者开发了一种新的政策梯度方法,用于解决这些游戏。他们证明了当游戏是凸-凹时,他们的算法可以在多项式时间内收敛到斯塔克尔伯格均衡。
效果:实验结果表明,将到达-避免问题建模为斯塔克尔伯格博弈,比其它解决方案(特别是纳什均衡)更安全、更少可能导致碰撞,并且更有可能达到目标。
Combining Behaviors with the Successor Features Keyboard
Wilka Carvalho Andre Saraiva Angelos Filos Andrew Kyle Lampinen Loic Matthey Richard Lewis Honglak Lee Satinder Singh Danilo Jimenez Rezende Daniel Zoran
研究问题:如何有效地在任务之间转移行为知识?
动机:现有的转移方法依赖于手动设计的状态特征和任务编码,这在新环境中设计起来非常繁琐。
方法:提出了“成功特征键盘”(SFK)和“分类成功特征近似器”(CSFA),通过发现状态特征和任务编码来实现转移。
效果:在具有挑战性的3D环境中,使用SFK和CSFA实现了首次使用SFs的转移,比其他方法更快地转移到长周期任务。
f-Policy Gradients: A General Framework for Goal-Conditioned RL using f-Divergences
Siddhant Agarwal Ishan Durugkar Peter Stone Amy Zhang
研究问题:在目标条件强化学习(RL)中,由于奖励信号稀疏,即只有在达到目标时才接收到奖励,因此策略优化成为一个困难的问题。
动机:现有的方法通过学习密集的奖励函数来弥补稀疏奖励的问题,但如果奖励不匹配,可能会导致次优策略。此外,最近的研究表明,针对特定问题的有效奖励塑造可能取决于底层的学习算法。
方法:本文提出了一种名为$f$-Policy Gradients(或$f$-PG)的新方法来鼓励探索。$f$-PG最小化代理的状态访问分布和目标之间的f-散度,我们证明这可以导致最优策略。我们为各种f-散度推导出梯度以优化此目标。我们的学习范式为稀疏奖励设置中的探索提供了密集的学习信号。我们还引入了一个熵正则化的策略优化目标,我们称之为$state$-MaxEnt RL(或$s$-MaxEnt RL),作为我们目标的一个特例。
效果:我们在一个具有挑战性的网格世界以及Point Maze和FetchReach环境中发现,与标准的 policy gradient 方法相比,$f$-PG具有更好的性能。更多信息请访问我们的网站 https://agarwalsiddhant10.github.io/projects/fpg.html。
A Diffusion-Model of Joint Interactive Navigation
Matthew Niedoba Jonathan Wilder Lavington Yunpeng Liu Vasileios Lioutas Justice Sefas Xiaoxuan Liang Dylan Green Setareh Dabiri Berend Zwartsenberg Adam Scibior Frank Wood
研究问题:如何模拟自动驾驶系统中的多样化和现实行为?
动机:使用预先录制的真实世界交通场景进行模拟可以确保真实性,但安全关键事件的罕见性使得大规模收集驾驶场景变得昂贵。
方法:提出DJINN——一种基于扩散的生成交通场景的方法。该方法联合扩散所有代理的轨迹,条件是过去、现在或未来的灵活状态观察集。
效果:在流行的轨迹预测数据集上,我们在联合轨迹度量上报告了最先进的性能。此外,我们展示了DJINN如何灵活地直接从各种有价值的条件分布中进行测试时间采样,包括目标基采样、行为类别采样和场景编辑。
ELDEN: Exploration via Local Dependencies
Zizhao Wang Jiaheng Hu Peter Stone Roberto Martín-Martín
研究问题:如何有效地探索状态空间大、奖励稀疏的任务,以解决强化学习中的问题。
动机:在状态空间大、奖励稀疏的任务中,代理需要有效探索状态空间以找到奖励。为了解决这个问题,社区提出了用内在奖励来增强奖励函数,这是一种鼓励代理访问状态的奖励信号。
方法:我们提出了一种新的定义环境有趣状态的方法,适用于具有分解状态空间和复杂链式依赖关系的环境,其中代理的行动可能会改变一个实体的值,这个实体可能依次影响另一个实体的值。我们的见解是,在这些环境中,有趣的探索状态是代理不确定实体(如代理或对象)是否相互影响的州。我们提出了ELDEN,一种通过局部依赖性进行探索的新的内在奖励,它鼓励发现实体之间的新交互。
效果:我们在四个具有复杂依赖关系的领域中评估了ELDEN的性能,从2D网格世界到3D机器人任务。在所有领域,ELDEN都能正确识别局部依赖关系并学习成功的策略,显著优于先前最先进的探索方法。
Model-free Posterior Sampling via Learning Rate Randomization
Daniil Tiapkin Denis Belomestny Daniele Calandriello Eric Moulines Remi Munos Alexey Naumov pierre perrault Michal Valko Pierre MENARD
研究问题:本文介绍了一种新的随机化无模型算法RandQL,用于最小化回合马尔可夫决策过程(MDPs)中的遗憾。
动机:RandQL是首个可行的基于后验采样的无模型算法,其性能优于现有的方法。
方法:通过学习率随机化实现乐观探索,不使用奖励机制。
效果:在基线探索环境中,RandQL的表现优于现有方法。
MIMEx: Intrinsic Rewards from Masked Input Modeling
Toru Lin Allan Jabri
研究问题:探索高维观测环境困难,如何利用内在奖励进行有效探索。
动机:内在奖励通常涉及对状态、转换或轨迹的"新颖性"进行深度网络估计,已有工作表明条件预测目标如掩蔽自动编码可以看作是伪似然的随机估计。
方法:提出了一种通用框架——掩蔽输入模型探索(MIMEx),通过灵活调整掩码分布来控制底层条件预测任务的难度。
效果:在一系列具有挑战性的稀疏奖励视觉运动任务中,MIMEx相比竞争性基线取得了优越的结果。
Egocentric Planning for Scalable Embodied Task Achievement
Xiaotian Liu Hector Palacios Christian Muise
研究问题:如何让代理在多样化的环境中执行任务,特别是在对象类型泛化和执行合适动作以完成任务方面。
动机:现有的方法在处理复杂环境中的任务时面临重大挑战,尤其是在对象类型泛化和执行合适动作以完成任务方面。
方法:提出了一种创新的方法——自我中心规划(Egocentric Planning),该方法结合了符号规划和面向对象的部分可观察马尔科夫决策过程(POMDPs),以解决复杂环境中的任务,利用现有的视觉感知和自然语言处理模型。
效果:在ALFRED模拟环境中进行评估,证明了该方法的高可扩展性,在ALFRED基准测试中取得了36.07%的未见过的成功率,并在CVPR Embodied AI研讨会上赢得了ALFRED挑战赛。这种方法需要可靠的感知,以及指定或学习代理行动的前条件和结果的符号描述,以及哪些对象类型可以揭示关于其他对象的信息。只要可以使用现有技能解决的问题,它就可以自然地扩展到解决新的任务。这项工作为研究旨在泛化到新任务的端到端和混合方法提供了坚实的基线,包括最近依赖语言模型的方法,但这些方法往往难以扩展到长序列的动作或为新任务生成稳健的计划。
A State Representation for Diminishing Rewards
Ted Moskovitz Samo Hromadka Ahmed Touati Diana L Borsa Maneesh Sahani
研究问题:在多任务强化学习中,如何使代理快速适应从固定分布中随机抽取的各种固定奖励函数。
动机:在自然环境中,连续的任务很少是独立的,而是反映基于奖励刺激的可用性和主观感知的变化优先级。
方法:引入一种新的状态表示——λ表示(λR),这是一种在此类环境中进行策略评估所需的新的状态表示,它不仅推广了SR,还推广了文献中的其他几种状态表示。
效果:我们确立了λR的形式属性,并考察了其在机器学习中的规范优势,以及其对自然行为(特别是觅食行为)研究的有用性。
Online POMDP Planning with Anytime Deterministic Guarantees
Moran Barenboim Vadim Indelman
研究问题:如何有效地解决现实世界中自主代理在不确定性下进行规划的问题。
动机:部分可观察的马尔科夫决策过程(POMDPs)可以形式化地描述不确定性下的规划,但找到最优计划对于大型问题来说计算成本过高。
方法:通过简化解决方案和理论最优解之间的确定性关系,推导出一种新颖的算法。首先,我们为每个后验节点计算完整信念时选择分支观测值的子集制定了界限。然后,由于完整的信念更新可能计算量较大,我们将界限扩展到支持状态和观测空间的缩减。
效果:我们的保证可以与现有的采样状态和观测的最优解集成,返回的解决方案相对于最优策略具有确定性界限。最后,我们通过实验结果证实了我们的研究。
Residual Q-Learning: Offline and Online Policy Customization without Value
Chenran Li Chen Tang Haruki Nishimura Jean Mercat Masayoshi Tomizuka Wei Zhan
研究问题:如何通过模仿学习(IL)训练一个既能继承原有行为特性,又能满足不同下游任务需求的自定义策略。
动机:在复杂的真实世界任务中,手动设计奖励函数困难,或者需要模仿人类专家行为时,模仿学习框架具有吸引力。然而,学到的模仿策略只能遵循演示中的行为,我们需要定制策略行为以满足来自不同下游任务的多样化需求。
方法:我们提出了一种新的问题设定——策略定制,将学习任务定义为训练一个继承原有策略特性,同时满足目标下游任务额外要求的策略。我们提出了一种新颖且原则性的方法来理解和确定两个任务目标之间的权衡。具体来说,我们将定制问题表述为一个马尔可夫决策过程(MDP),其奖励函数结合了1)演示的内在奖励;和2)由下游任务指定的附加奖励。
效果:我们提出了一种新的框架——剩余Q学习,它可以解决所提出的MDP问题,而无需知道原有策略的内在奖励或值函数。我们推导出了一系列可以实现离线和在线策略定制的剩余Q学习算法,并证明这些算法可以在各种环境中有效地完成策略定制任务。
Is RLHF More Difficult than Standard RL? A Theoretical Perspective
Yuanhao Wang Qinghua Liu Chi Jin
研究问题:如何利用人类反馈进行强化学习。
动机:标准强化学习直接从奖励信号中学习,而强化学习从人类反馈(偏好)中学习,偏好信息似乎比奖励信息少,使得基于偏好的强化学习更具挑战性。
方法:本文通过理论证明,对于广泛的偏好模型,我们可以使用现有的奖励基础强化学习算法和技术直接解决基于偏好的强化学习问题,只需较小的或无需额外成本。具体来说,(1)对于从奖励基础概率模型中抽取的偏好,我们将问题简化为可以容忍奖励中微小错误的鲁棒奖励基础强化学习;(2)对于一般的任意偏好,目标是找到冯·诺依曼赢家,我们将问题简化为多代理奖励基础强化学习,该算法在限制策略集下寻找因子马尔可夫游戏的纳什均衡。
效果:我们实例化了所有奖励基础强化学习子程序的具体可证明算法,并将我们的理论应用于包括表格MDP和具有通用函数近似的MDP在内的一大类模型。当可以进行K次比较时,我们还提供了保证。
Instructing Goal-Conditioned Reinforcement Learning Agents with Temporal Logic Objectives
Wenjie Qiu Wensen Mao He Zhu
研究问题:现有的以线性时态逻辑(LTL)形式编写的长期指令为条件的任务特定策略学习方法,在面对复杂任务时存在泛化性问题。
动机:为了解决现有方法无法适应分布外LTL目标的问题,需要一种无需额外训练LTL任务空间,就能让简单目标条件强化学习代理遵循任意LTL规范的方法。
方法:本文提出了一种新的方法,通过这种方法,简单的目标条件强化学习代理可以无需额外训练就能遵循任意LTL规范,且不受限制,能推广到ω-正则表达式。
效果:实验结果表明,该方法能有效使目标条件强化学习代理适应复杂的零射击时态逻辑任务规范。
Language Model Alignment with Elastic Reset
Michael Noukhovitch Samuel Lavoie Florian Strub Aaron Courville
研究问题:如何优化语言模型的奖励和漂移之间的平衡?
动机:目前常用的测试指标无法充分衡量奖励和漂移之间的权衡,而常见的方法通过修改奖励函数来解决这个问题,但可能导致性能下降。
方法:提出了Elastic Reset算法,通过定期将在线模型重置为其自身的指数移动平均(EMA),然后再将EMA模型重置为初始模型,以实现更高的奖励和更少的漂移。
效果:在小规模翻译基准测试中,使用Elastic Reset进行语言模型微调取得了最先进的性能;在中等规模的IMDB模拟情感任务中,所有基线都被超越;在与LLaMA-7B的对话机器人技术QA任务中,实现了更高性能和更好的对齐。
Multi-Objective Intrinsic Reward Learning for Conversational Recommender Systems
Zhendong Chu Nan Wang Hongning Wang
研究问题:如何设计任务特定的奖励以促进会话推荐系统(CRS)的政策学习。
动机:主流的基于强化学习的CRS解决方案严重依赖于手工制作的奖励函数,这可能与CRS任务中的用户意图不相符。因此,设计任务特定的奖励对于促进CRS政策学习至关重要。
方法:我们提出了一种新的方法来解决这个问题,通过从与用户的交互中学习内在奖励。具体来说,我们将内在奖励的学习形式化为一个多目标双层优化问题。内部层优化由学习到的内在奖励增强的CRS策略,而外部层驱动内在奖励优化两个CRS特定目标:最大化成功率和最小化达到成功推荐所需的对话轮数。
效果:我们在三个公共CRS基准上进行了大量的实验,结果表明我们的算法通过利用信息丰富的学习内在奖励显著提高了CRS的性能。
Online learning of long-range dependencies
Nicolas Zucchet Robert Meier Simon Schug Asier Mujika Joao Sacramento
研究问题:如何有效地进行长期信用分配在循环神经网络中。
动机:目前的在线学习算法要么不可扩展,要么无法学习长范围依赖性。
方法:利用多层网络中的独立循环模块,这种架构模式最近被证明特别强大。
效果:实验结果表明,该算法在合成内存问题和具有挑战性的长范围竞技场基准套件上表现良好,为在线学习设定了新的标准。
Finding Counterfactually Optimal Action Sequences in Continuous State Spaces
Stratis Tsirtsis Manuel Gomez Rodriguez
研究问题:如何有效地分析连续环境中的序列决策过程。
动机:现有的序列决策分析方法主要针对离散状态环境,而在许多实际应用中,环境状态是连续的。
方法:通过有限视窗马尔可夫决策过程和一类广泛的双射结构因果模型,对离散动作和连续状态进行形式化描述。在此基础上,提出寻找反事实最优动作序列的问题,并表明该问题通常无法在多项式时间内解决。然后,基于A*算法开发一种搜索方法,该方法在环境动态满足自然形式的Lipschitz连续性的条件下,保证返回问题的最优解。
效果:实验证明,该方法在实际临床数据上非常高效,有潜力为序列决策任务提供深入洞察。
Neural Multi-Objective Combinatorial Optimization with Diversity Enhancement
Jinbiao Chen Zizhen Zhang Zhiguang Cao Yaoxin Wu Yining Ma Te Ye Jiahai Wang
研究问题:现有的多目标组合优化(MOCO)的神经方法主要依赖于分解,这往往导致子问题的重复解决方案,从而限制了帕累托集的大小。
动机:为了生成更多的帕累托解决方案,我们提出了一种新的具有多样性增强的神经启发式算法(NHDE)。
方法:一方面,为了防止不同子问题的解决方案重复,我们提出了一种指标增强的深度强化学习方法来指导模型,并设计了一种异构图注意力机制来捕捉实例图和帕累托前沿图之间的关系。另一方面,为了挖掘每个子问题附近的更多解决方案,我们提出了一种多个帕累托最优策略来采样和保留理想的解决方案。
效果:实验结果表明,我们的NHDE能够在帕累托前沿上生成更具多样性的解决方案,从而实现优越的整体性能。此外,我们的NHDE是通用的,可以应用于不同的MOCO神经方法。
Provably Efficient Offline Reinforcement Learning in Regular Decision Processes
Roberto Cipollone Anders Jonsson Alessandro Ronca Mohammad Sadegh Talebi
研究问题:本文探讨了在已知有限状态自动机下,如何利用预先收集的非马尔科夫观察序列数据进行强化学习。
动机:现有的离线强化学习方法主要针对马尔科夫决策过程(MDPs),对于非马尔科夫决策过程(RDPs)的研究较少。而RDPs可以通过有限状态自动机捕获过去事件的历史依赖性。
方法:本文提出了一种名为RegORL的算法,该算法结合了自动机学习和最先进的离线RL算法,适用于处理未知有限状态自动机的RDPs。
效果:实验结果表明,RegORL能够有效地学习出接近最优的策略,并且是首个被证明在RDPs上有效的离线学习算法。
Information Maximizing Curriculum: A Curriculum-Based Approach for Learning Versatile Skills
Denis Blessing Onur Celik Xiaogang Jia Moritz Reuss Maximilian Xiling Li Rudolf Lioutikov Gerhard Neumann
研究问题:当训练数据来自人类演示者时,模仿学习往往导致多模态分布,因为人类行为的变化性。大多数模仿学习方法依赖于最大似然(ML)目标来学习参数化策略,但这可能导致次优或不安全的行为,因为ML目标具有模态平均属性。
动机:本文提出了信息最大化课程,这是一种基于课程的方法,为每个数据点分配权重,并鼓励模型专门学习其可以表示的数据,通过允许模型忽略无法表示的模态数据,有效地解决了模态平均问题。
方法:为了覆盖所有模态并实现多功能行为,我们将该方法扩展到混合专家(MoE)策略,其中每个混合组件选择自己的训练数据子集进行学习。提出了一种新颖的最大熵目标来实现数据集的全面覆盖,从而使策略能够包含数据分布中的所有模态。
效果:我们在使用多功能人类演示的复杂模拟控制任务上展示了该方法的有效性,与最先进的方法相比,取得了优越的性能。
Accelerating Exploration with Unlabeled Prior Data
Qiyang Li Jason Zhang Dibya Ghosh Amy Zhang Sergey Levine
研究问题:如何利用无奖励标签的先验数据来指导和加速解决新稀疏奖励任务的代理的探索?
动机:在现实世界中,代理很少需要完全从零开始解决稀疏奖励任务。我们可能拥有可以提供关于世界中可能的动作和结果的大量指导的先前经验,我们可以利用这些经验更有效地探索新任务。
方法:我们提出了一种简单的方法,该方法从在线经验中学习奖励模型,用乐观的奖励标记未标记的先验数据,然后将其与在线数据并行用于下游策略和评论家优化。
效果:我们的方法在几个挑战性的稀疏奖励领域中实现了快速的探索,包括AntMaze领域、Adroit手部操作领域和视觉模拟机器人操作领域。我们的结果强调了将未标记的先验数据集成到现有的在线RL算法中的简便性,以及这样做的效果(可能令人惊讶)。
Direct Preference-based Policy Optimization without Reward Modeling
Gaon An Junhyeok Lee Xingdong Zuo Norio Kosaka Kyung-Min Kim Hyun Oh Song
研究问题:本文旨在解决现有强化学习算法在奖励函数难以定义时的问题,提出了一种直接从偏好中学习的偏好增强学习(PbRL)算法。
动机:现有的PbRL方法需要先从偏好数据中学习奖励模型,然后使用该模型进行强化学习,但当偏好信息来自人类教师时,获取准确的奖励模型可能很困难。
方法:本文提出的PbRL算法直接从偏好中学习,不依赖于任何奖励模型。为此,我们采用了对比学习框架设计了一个新的策略评分指标,该指标会给与偏好一致的策略高分。
效果:我们在具有实际人类偏好标签的离线RL任务上应用了我们的算法,结果显示我们的算法优于或等同于现有的PbRL方法。特别是在高维控制任务上,我们的算法超过了那些使用真实奖励信息学习的离线RL方法。最后,我们还展示了我们的算法可以成功应用于微调大型语言模型。
Compositional Policy Learning in Stochastic Control Systems with Formal Guarantees
Đorđe Žikelić Mathias Lechner Abhinav Verma Krishnendu Chatterjee Thomas A Henzinger
研究问题:强化学习在复杂的控制任务中表现出了潜力,但其缺乏对策略行为的正式保证,这阻碍了其部署。
动机:本文提出了一种新的方法,用于在随机环境中学习神经网络策略的组合,并附带一个正式的证书,该证书保证以所需的概率满足策略行为的规定。
方法:该方法利用SpectRL提供的逻辑规定的组合性质,在概率可达避免规范图上进行学习。形式上的保证是通过学习神经网络策略以及为图的子任务学习的可达避免鞅(RASM)并将其组合成全局策略来提供的。
效果:我们在随机九宫环境上实现了该方法的原型,并进行了评估。
Learning to Influence Human Behavior with Offline Reinforcement Learning
Joey Hong Sergey Levine Anca Dragan
研究问题:AI代理在与人类互动时,如何影响人类的行为、意图和策略,特别是在人类行为非最优的情况下。
动机:目前的研究中,大部分都假设人类行为接近最优,如竞争性游戏或自动驾驶等。然而,我们关注的是在需要捕捉人类非最优行为的情况下,AI代理如何影响人类。例如,在协作任务中,由于认知偏差或信息不足,人们的表现不佳,AI代理应如何引导他们采取更优的行为?
方法:我们从离线的人与人交互数据集进行学习,通过扩展和结合观察到的人类行为元素,使离线强化学习能够有效地影响非最优的人类。
效果:我们证明了离线强化学习可以通过以下两种方式解决有效影响的挑战。首先,即使数据集不包含成功影响的例子,代理也能从各种任务的次优人与人交互数据集中学习影响策略,引导人类在新任务上表现更好。其次,通过对人类行为的建模和条件化,离线强化学习不仅可以影响人类的行为,还可以影响他们的基本策略,并能适应他们策略的变化。
Posterior Sampling for Competitive RL: Function Approximation and Partial Observation
Shuang Qiu Ziyu Dai Han Zhong Zhaoran Wang Zhuoran Yang Tong Zhang
研究问题:本文研究了在一般函数近似情况下,用于竞争性强化学习的后验采样算法。
动机:针对零和马尔科夫博弈(MGs)在自我对弈和对抗学习两种关键设置下的问题,提出了自我对弈和对抗广义逃避系数(GEC)作为函数近似的复杂性度量,以捕捉MG中的探索-利用权衡。
方法:基于自我对弈GEC,提出了一种基于模型的自我对弈后验采样方法,以控制两个玩家学习纳什均衡,该方法可以成功处理状态的部分可观察性。此外,识别出一组符合对手对抗策略的、适合MG学习的局部可观察MG模型。结合对抗GEC,提出了一种基于模型的后验采样方法,用于学习可能部分可观察的对抗MG。
效果:为提出的算法提供了低遗憾界限,该界限可以与提出的GEC和剧集数量T成次线性比例缩放。据我们所知,这是首次开发了适用于大多数可处理的零和MG类的竞争性RL的通用基于模型的后验采样算法,可用于完全可观察和部分可观察的MGs的自我对弈和对抗学习。
Decision-Aware Actor-Critic with Function Approximation and Theoretical Guarantees
Sharan Vaswani Amirreza Kazemi Reza Babanezhad Harikandeh Nicolas Le Roux
研究问题:本文旨在解决强化学习中Actor-Critic方法训练目标与实际奖励目标不匹配的问题。
动机:目前的Actor-Critic方法在训练过程中,Critic的目标函数(最小化TD误差)可能与实际的奖励最大化目标存在偏差。
方法:提出一种决策感知的联合目标函数来同时训练Actor和Critic,并设计了一个通用的AC算法,可以处理任何形式的函数近似。
效果:通过实验证明,该算法在简单的强化学习问题上表现优越,能够保证策略的单调改进。
Similarity-based cooperative equilibrium
Caspar Oesterheld Johannes Treutlein Roger Baker Grosse Vincent Conitzer Jakob Nicolaus Foerster
研究问题:如何使机器学习代理在单次囚徒困境中实现合作。
动机:标准博弈论预测,在许多社会困境中,如单次囚徒困境,机器学习代理将无法相互合作。
方法:引入一个更现实的设置,即代理只能观察到一个数字,表示他们彼此之间的相似程度。
效果:实验证明,这种设置可以实现与完全透明设置相同的合作结果,并且可以通过简单的机器学习方法学习合作。
BQ-NCO: Bisimulation Quotienting for Efficient Neural Combinatorial Optimization
Darko Drakulic Sofia Michel Florian Mai Arnaud Sors Jean-Marc Andreoli
研究问题:尽管神经网络在端到端的启发式学习中取得了成功,但分布外泛化仍然是一个挑战。
动机:本文提出了一种新的组合优化问题的马尔可夫决策过程(MDP)形式,有效地利用了组合优化问题的常见对称性来提高分布外鲁棒性。
方法:从构造性方法的直接MDP形式开始,引入了一种基于MDP中的双模拟商(BQ)的通用状态空间缩小方法。然后,对于具有递归性质的组合优化问题,我们专门化了双模拟,并展示了如何利用这些问题的对称性来简化状态和促进MDP求解。
效果:我们在五个经典问题上进行了说明,包括欧几里得和非对称旅行商问题、带容量的车辆路线问题、定向运动和背包问题等。此外,对于每个问题,我们都引入了一个简单的注意力政策网络用于BQ-MDPs,通过模仿小实例(接近)最优解进行训练。我们在合成和现实基准上获得了这五个COPs的新的最佳结果。值得注意的是,与大多数现有的神经网络方法相比,我们的学习策略在比训练时大得多的实例上表现出优秀的泛化性能,无需任何额外的搜索过程。
Learning Shared Safety Constraints from Multi-task Demonstrations
Konwoo Kim Gokul Swamy Zuxin Liu Ding Zhao Sanjiban Choudhury Steven Wu
研究问题:如何在环境中学习并执行共享的安全约束,以使代理尊重这些约束。
动机:手动指定安全约束既耗时又容易出错,因此需要通过专家示范来学习这些约束。
方法:通过扩展逆强化学习(IRL)技术到约束空间,从专家安全任务完成的示范中学习约束。
效果:在多任务设置中利用多样化的示范来学习更紧的约束集,从而有效地解决了约束学习问题。
Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization
Jinxin Liu Hongyin Zhang Zifeng Zhuang Yachen Kang Donglin Wang Bin Wang
研究问题:如何避免迭代误差传播,将离线RL的两层优化(值估计和策略提取)解耦,并在测试时执行外层优化?
动机:现有的非迭代离线RL方法无法完全回答三个核心问题:1. 我们应该从内层向表层转移什么信息?2. 在利用转移的信息进行安全/自信的外层优化时应注意什么?3. 在测试期间同时进行外层优化有什么好处?
方法:受基于模型的优化(MBO)的启发,我们提出了DROP(从策略设计),该方法全面回答了上述问题。在内层,DROP将离线数据分解为多个子集,并学习一个MBO得分模型。为了在外层安全地利用得分模型,我们明确地学习了一个行为嵌入并引入了保守的正则化。在测试期间,我们证明DROP允许部署适应,实现跨状态的自适应推理。
效果:实验上,我们在各种任务上评估DROP,结果显示DROP与先前的方法相比具有相当或更好的性能。
SafeDICE: Offline Safe Imitation Learning with Non-Preferred Demonstrations
Youngsoo Jang Geon-Hyeong Kim Jongmin Lee Sungryull Sohn Byoungjip Kim Honglak Lee Moontae Lee
研究问题:如何通过模仿学习来制定一个安全策略,既能模仿优选行为,又能避免非优选行为。
动机:在许多真实世界的场景中,满足安全约束比最大化预期回报更重要,但学习避免违反约束(即非优选)的行为是非常具有挑战性的。
方法:提出了一种无超参数的离线安全模仿学习方法——SafeDICE,该方法通过利用非优选示范在平稳分布空间中来学习安全策略。
效果:实验证明,与基线算法相比,该算法能学习到更符合成本约束的安全策略,且不会降低奖励性能。
BIRD: Generalizable Backdoor Detection and Removal for Deep Reinforcement Learning
Xuan Chen Wenbo Guo Guanhong Tao Xiangyu Zhang Dawn Song
研究问题:后门攻击对深度强化学习(DRL)策略的供应链管理构成严重威胁。
动机:尽管最近的研究中提出了初步的防御措施,但这些方法的通用性和可扩展性非常有限。
方法:我们提出了BIRD,一种在无需了解攻击规格和访问其训练过程的情况下,从预训练的DRL策略中检测并移除后门的技术。
效果:我们在十个不同的单代理或多代理环境中评估了BIRD对三种后门攻击的抵抗能力,结果验证了BIRD的有效性、效率和通用性,以及其对不同攻击变化和适应的鲁棒性。
Team-PSRO for Learning Approximate TMECor in Large Team Games via Cooperative Reinforcement Learning
Stephen Marcus McAleer Gabriele Farina Gaoyue Zhou Mingzhi Wang Yaodong Yang Tuomas Sandholm
研究问题:如何提高多玩家零和游戏的算法性能。
动机:目前的算法在两人零和游戏中表现优秀,但在多人游戏如桥牌、足球等中表现不佳。
方法:提出了两种新的算法——Team-PSRO和Team-PSRO Mix-and-Match,通过强化学习让团队学习对手的元策略的最佳反应。
效果:实验证明,这两种算法都能收敛到TMECor,且在大型游戏中优于自我对弈的强化学习。
Reference-Based POMDPs
Edward Kim Yohan Karunanayake Hanna Kurniawati
研究问题:如何使机器人在部分可观察和非确定性的情况下做出良好的决策。
动机:尽管POMDP(部分可观察马尔科夫决策过程)在解决这类问题上取得了进展,但长期规划和不断变化的环境仍然难以解决。
方法:提出一种改进的POMDP问题,称为基于参考的POMDP,通过修改POMDP目标函数来平衡预期总奖励和接近给定参考策略(随机策略)。
效果:实验结果表明,基于参考的POMDP算法在长期导航问题上显著优于POMCP算法。
Persuading Farsighted Receivers in MDPs: the Power of Honesty
Martino Bernasconi Matteo Castiglioni Alberto Marchesi Mirco Mutti
研究问题:本文探讨了知情的发送者如何通过策略性地披露信息来影响不知情的接收者的行为,特别是在接收者进行序列化交互的情况下。
动机:当前的研究主要关注于计算最优的信息揭示策略(即信号方案),但大多数研究都假设接收者只考虑一步的效用,忽视了未来的回报。然而,当接收者具有远见并考虑未来回报时,找到最优的马尔可夫信号方案是NP-hard的。
方法:本文提出了一种算法,可以计算出最优和ε-有说服力的历史依赖信号方案,该方案的时间复杂度为多项式时间。同时,引入了一种方便的历史依赖信号方案的子类——承诺形式,它与一般的历史依赖方案一样强大,且可以有效地表示。
效果:实验结果表明,历史依赖的信号方案比马尔可夫信号方案更有效,而且承诺形式的历史依赖信号方案在效率和效果上都表现出色。
Distributional Policy Evaluation: a Maximum Entropy approach to Representation Learning
Riccardo Zamboni Alberto Maria Metelli Marcello Restelli
研究问题:本文旨在提出一种新的最大熵框架,用于分布强化学习中的策略评估。
动机:最大熵框架已在各种强化学习任务中得到有效应用,但尚未在分布强化学习环境中进行策略评估。
方法:提出了一种名为“分布最大熵策略评估”(D-Max-Ent PE)的新的最大熵框架,并在此基础上进行了状态空间表示的学习。
效果:通过数值模拟,证明了该算法能够匹配预期的理论行为,并突出了聚合与样本机制之间的关系。
Constrained Policy Optimization with Explicit Behavior Density For Offline Reinforcement Learning
Jing Zhang Chi Zhang Wenjia Wang Bingyi Jing
研究问题:离线强化学习(RL)由于无法与环境交互,面临估计分布外(OOD)点的挑战。
动机:现有的处理此问题的方法要么控制策略排除OOD动作,要么使Q函数悲观。但这些方法可能过于保守,或无法准确识别OOD区域。
方法:我们提出了一种约束策略优化与显性行为密度(CPED)的方法,该方法利用流-GAN模型来明确估计行为策略的密度。通过估计明确的密度,CPED可以准确识别安全区域并在该区域内进行探索,从而产生较少保守的学习策略。
效果:实验结果表明,CPED在各种标准的离线强化学习任务上优于现有的替代方案,产生更高的期望回报。
Learning to Discover Skills through Guidance
Hyunseung Kim Byungkun Lee Hojoon Lee Dongyoon Hwang Sejik Park Kyushik Min Jaegul Choo
研究问题:在无监督技能发现(USD)领域,主要挑战是探索能力有限,主要是由于技能偏离初始轨迹时会产生重大的惩罚。
动机:为了增强探索能力,现有的方法通过增加辅助奖励来最大化状态的知识不确定性或熵。但是,随着环境复杂度的增加,这些奖励的效果会下降。
方法:我们提出了一种新的USD算法——DISCO-DANCE。该算法首先选择最有可能到达未探索状态的引导技能,然后引导其他技能跟随引导技能,最后将引导的技能分散开来,以最大化其在未探索状态中的区分度。
效果:实验证明,DISCO-DANCE在具有挑战性的环境中优于其他USD基线,包括两个导航基准测试和一个连续控制基准测试。
Action Inference by Maximising Evidence: Zero-Shot Imitation from Observation with World Models
Xingyuan Zhang Philip Becker-Ehmck Patrick van der Smagt Maximilian Karl
研究问题:如何通过观察和模仿他人来快速学习新的行为,特别是在强化学习中需要大量环境交互的情况下。
动机:人类能够通过观察和模仿他人快速学习新行为,这主要归功于他们拥有的身体模型可以推断出导致观察到行为的最可能的动作。
方法:本文提出了一种名为“最大化证据的动作推理”(AIME)的方法,该方法使用世界模型复制这种行为。AIME包括两个阶段,第一阶段,代理通过最大化ELBO从过去的经验中学习世界模型以理解自己的身体;第二阶段,代理接收到专家执行新任务的观察演示,并尝试模仿专家的行为。
效果:我们的方法在DeepMind控制套件的Walker和Cheetah embodiment上进行了实证验证,发现其零射击模仿性能优于最先进的基线。
Hybrid Policy Optimization from Imperfect Demonstrations
Hanlin Yang Chao Yu peng sun Siji Chen
研究问题:如何利用少量的不完美演示来加速强化学习代理的在线学习过程。
动机:在现实世界的应用中,获取高质量的专家演示通常是昂贵甚至不可能的,因此需要一种方法来解决这个问题。
方法:提出了一种新的强化学习算法,称为混合策略优化(HYPO),该算法使用少量不完美的演示来指导在线代理进行有效的探索。
效果:实验结果表明,HYPO在各种具有挑战性的任务中,如MuJoCo稀疏奖励环境、Google研究足球和AirSim无人机模拟等,都显著优于几个基线方法。
Policy Optimization in a Noisy Neighborhood: On Return Landscapes in Continuous Control
Nathan Rahn Pierluca D'Oro Harley Wiltzer Pierre-Luc Bacon Marc G Bellemare
研究问题:深度强化学习代理在连续控制任务中的性能表现不稳定。
动机:通过研究回报景观,即策略与回报之间的映射,提供新的视角来理解这些行为。
方法:对回报进行分布性观察,映射出策略空间的故障易发区域,揭示出隐藏的策略质量维度。
效果:通过寻找参数空间中的简单路径,改善策略的稳定性,从而提升策略的鲁棒性。
Semantic HELM: A Human-Readable Memory for Reinforcement Learning
Fabian Paischer Thomas Adler Markus Hofmarcher Sepp Hochreiter
研究问题:强化学习代理在现实世界中部署时,常需应对部分可观察的环境,但现有方法缺乏可解释性。
动机:为了提高强化学习代理的可解释性,我们提出了一种新颖的记忆机制,将过去事件以人类语言进行表示。
方法:我们使用CLIP将视觉输入与语言标记关联起来,然后将这些标记输入预训练的语言模型,作为代理的记忆,为其提供连贯且易于理解的过去表示。
效果:我们在一组部分可观察的环境中训练了这种记忆机制,发现它在需要记忆组件的任务上表现出色,而在不需要记忆的任务上基本达到了与强大基线相当的性能。在一个具有挑战性的连续识别任务中,我们的记忆机制比之前的方法快两个数量级地收敛。由于我们的记忆机制是易于理解的,我们可以查看代理的记忆,检查是否存储了关键信息,从而显著提高了故障排除能力,并为更易解释的代理铺平了道路。
Consistent Aggregation of Objectives with Diverse Time Preferences Requires Non-Markovian Rewards
Silviu Pitis
研究问题:如何合理地设定多目标代理的奖励函数?
动机:随着人工智能代理的能力提升,其被用于服务多样化的目标和利益相关者。然而,这些目标的组合通常是随意的,没有明确的依据。
方法:本文从一组直观吸引人的公理出发,证明了当每个目标的时间偏好(折扣因子)可能变化时,Markovian奖励函数的Markovian聚合是不可能的。因此,最优的多目标代理必须接受相对于单个目标来说是非Markovian的奖励。为此,提出了一种实用的非Markovian聚合方案,仅通过为每个目标增加一个参数就可以克服不可能性。
效果:这项工作为顺序多目标代理和跨期选择提供了新的见解,对于设计服务于具有不同时间偏好的多代委托人的AI系统具有实际意义。
A Definition of Continual Reinforcement Learning
David Abel Andre Barreto Benjamin Van Roy Doina Precup Hado van Hasselt Satinder Singh
研究问题:本文旨在对连续强化学习问题进行严谨的定义,以突出其承诺并明确其主要概念。
动机:尽管连续强化学习的重要性,但该领域缺乏一个简单明了的问题定义,使得主要概念不够精确清晰。
方法:通过一种新的数学语言来分析和分类代理,将“永不停止学习”的代理的概念形式化,并将连续学习代理定义为可以无限期执行隐式搜索过程的代理,将连续强化学习定义为最佳代理都是连续学习代理的环境。
效果:这些定义和观点形式化了学习核心的许多直观概念,并为围绕持续学习代理的新研究路径开放了大门。
Conservative State Value Estimation for Offline Reinforcement Learning
Liting Chen Jie Yan Zhengdao Shao Lu Wang Qingwei Lin Saravan Rajmohan Thomas Moscibroda Dongmei Zhang
研究问题:离线强化学习中,由于数据集和当前已学习策略的分布漂移,导致价值估计过高,进而引发学习失败的问题。
动机:为了解决离线强化学习中的分布漂移问题,本文提出了一种新方法——保守状态值估计(CSVE),通过直接对OOD状态施加惩罚来学习保守的V函数。
方法:CSVE通过在Bellman迭代中引入一个奖励或价值估计的惩罚项,同时避免对OOD状态和动作进行外推,从而进行更有效的状态值估计。
效果:在D4RL的经典连续控制任务中,该方法的表现优于保守Q函数学习方法,并且在最新的SOTA方法中具有很强的竞争力。
Hybrid Search for Efficient Planning with Completeness Guarantees
Kalle Kujanpää Joni Pajarinen Alexander Ilin
研究问题:解决计算机科学中长期存在的复杂规划问题。
动机:基于学习的子目标搜索方法在处理这些问题上显示出潜力,但它们往往缺乏完整性保证,即使存在解决方案,也可能找不到。
方法:提出一种高效的方法来增强子目标搜索方法以实现离散动作空间的完整性。具体来说,通过低层动作执行多层次(混合)搜索来增强高层搜索,我们称之为完整子目标搜索。
效果:实验结果表明,我们的完整子目标搜索不仅保证了完整性,甚至可以在高层搜索可以解决的问题实例上提高搜索扩展性能。这种方法使得子目标级别的规划可以在需要完整性的关键系统中得到应用。
Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning
Seungyong Moon Junyoung Yeom Bumsoo Park Hyun Oh Song
研究问题:在程序生成的环境中发现具有层次结构的成就是一项重大挑战。
动机:这需要代理具备广泛的能力,包括泛化和长期推理。许多先前的方法都建立在基于模型或分层的方法上,认为显式的长期规划模块对于学习层次依赖性是有利的。然而,这些方法需要过多的环境交互或大型模型,限制了它们的实用性。
方法:我们证明,当使用最新的实现实践进行优化时,简单而通用的无模型算法——近端策略优化(PPO)优于以前的方法。此外,我们发现PPO代理可以在一定程度上预测下一个将被解锁的成就,尽管信心有限。基于这一观察,我们引入了一种名为成就蒸馏的新型对比学习方法,增强了代理预测下一个成就的能力。
效果:我们的方法展示了强大的发现分层成就的能力,并在具有挑战性的Crafter环境中以样本有效的方式表现出最先进的性能,同时使用的模型参数更少。
Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach
Riccardo Poiani Nicole Nobili Alberto Maria Metelli Marcello Restelli
研究问题:现有的强化学习算法中,策略评估主要通过蒙特卡洛模拟进行,但这种固定长度的轨迹收集策略是否是最佳选择?
动机:为了提高策略评估的质量,需要寻找更有效的数据收集策略。
方法:提出了一种名为RIDO的自适应数据收集策略优化算法,该算法将可用的交互预算分割成小批量,并在每一轮中确定最小化估计器方差的经验且鲁棒的轨迹时间表。
效果:实验结果表明,RIDO能够适应向需要更多采样的时间步长调整其轨迹时间表,从而提高最终估计的质量。
Self-Predictive Universal AI
Elliot Catt Jordi Grau-Moya Marcus Hutter Matthew Aitchison Tim Genewein Gregoire Deletang Li Kevin Wenliang Joel Veness
研究问题:本文旨在提出一种名为Self-AIXI的新的通用代理,通过最大化利用学习来获取良好的策略。
动机:现有的强化学习算法通常结合学习和规划技术来制定有效的策略,而Self-AIXI则反其道而行之,通过自我预测自己的行动数据来获取良好的策略。
方法:Self-AIXI通过自我预测自己的行动数据来生成策略,这与其他的TD(0)代理相似,都是通过在当前的最优策略上进行动作最大化步骤来生成Q值估计。
效果:实验证明,Self-AIXI能够收敛到AIXI,并且继承了一系列的优良性质,如最大的Legg-Hutter智能和自我优化属性。
Model-Free Active Exploration in Reinforcement Learning
Alessio Russo Alexandre Proutiere
研究问题:本文旨在解决强化学习中的探索问题,并提出一种新的无模型解决方案。
动机:现有的样本最优探索算法依赖于估计系统模型,而我们的方法不需要模型。
方法:我们从实例特定的采样数量下界出发,推导出最优探索策略,并设计了一种基于集成的无模型探索策略。
效果:数值结果表明,我们的策略能够比最先进的探索方法更快地识别出有效的策略。
Self-Supervised Reinforcement Learning that Transfers using Random Features
Boyuan Chen Chuning Zhu Pulkit Agrawal Kaiqing Zhang Abhishek Gupta
研究问题:解决具有高维观测和长时序的单任务序列决策问题,同时实现跨任务的行为转移。
动机:模型自由强化学习算法在解决这类问题上有巨大潜力,但难以泛化到其他任务;而基于模型的强化学习方法虽然能自然地实现不同奖励函数之间的转移,但在复杂环境中难以扩展。
方法:提出一种自我监督的强化学习方法,通过自我监督预训练模型自由强化学习并用随机特征作为奖励,隐式地模拟长期环境动态,然后使用这些隐式模型进行规划,快速适应新的问题和奖励函数。
效果:该方法在模拟的操纵和移动领域等多种任务上实现了跨任务的行为转移,为通用决策制定者打开了大门。
FlowPG: Action-constrained Policy Gradient with Normalizing Flows
Janaka Chathuranga Brahmanage Jiajing Ling Akshat Kumar
研究问题:如何确保强化学习中的行动满足约束条件,同时提高训练速度和收敛性。
动机:在行动受限的强化学习中,保证每一步行动的有效性是一大挑战。常见的使用投影层的方法需要解决优化问题,可能导致训练时间长、收敛慢和零梯度问题。
方法:首先,利用正态流模型在学习可行的动作空间和潜在变量(如高斯)支持之间建立一个可逆、可微分的映射。其次,学习流模型需要从可行的动作空间进行采样,这也是一个挑战。我们开发了基于汉密尔顿蒙特卡洛和概率句子决策图的采样方法,用于处理凸和非凸约束。最后,我们将学习到的正态流与DDPG算法集成。设计良好的正态流将无需优化求解器即可将策略输出转换为有效行动。
效果:实验结果表明,我们的方法在多种连续控制任务上显著减少了约束违规次数(在某些情况下高达一个数量级),并且速度快了几倍。
Doubly Robust Augmented Transfer for Meta-Reinforcement Learning
Yuankun Jiang Nuowen Kan Chenglin Li Wenrui Dai Junni Zou Hongkai Xiong
研究问题:元强化学习(Meta-RL)在稀疏奖励设置中性能下降。
动机:目前的基于事后的样本转移方法可以缓解这个问题,但它们受限于任务之间只存在奖励函数差异的不切实际的假设。
方法:本文提出了一种双重鲁棒增强转移(DRaT)方法,旨在解决具有动态失配和跨任务变化奖励函数的更一般的稀疏奖励元强化学习场景。
效果:实验结果表明,DRaT在各种具有不同动力学和奖励函数的稀疏奖励MuJoCo移动任务上显著优于其他基于事后的方法。
Winner Takes It All: Training Performant RL Populations for Combinatorial Optimization
Nathan Grinsztajn Daniel Furelos-Blanco Shikha Surana Clément Bonnet Thomas D Barrett
研究问题:如何将强化学习应用于组合优化问题,以解决其固有的复杂性。
动机:由于组合优化问题的固有复杂性,无法期望代理一次性解决问题,因此需要额外的搜索策略。
方法:提出了一种学习互补策略种群的方法,即Poppy训练程序,通过最大化种群性能来诱导无监督专业化。
效果:在旅行商问题、车辆路径问题和作业调度问题等三个流行的NP-hard问题上,Poppy获得了最先进的强化学习结果。
Flexible Attention-Based Multi-Policy Fusion for Efficient Deep Reinforcement Learning
Zih-Yun Chiu Yi-Lin Tuan William Yang Wang Michael C. Yip
研究问题:如何使强化学习代理接近人类的学习效率,并实现对外部知识的灵活利用和泛化?
动机:人类通过观察他人尝试任务的策略来学习,而现有的强化学习模型在结合和应用外部知识策略方面存在困难。
方法:提出了一种融合多种知识策略的知识基础强化学习(KGRL)框架,并设计了一种新的演员网络结构——知识内含注意力网络(KIAN),以实现对外部知识的灵活组合和替换。
效果:实验结果表明,KIAN优于其他结合外部知识策略的方法,实现了高效且灵活的学习。
Diffused Task-Agnostic Milestone Planner
Mineui Hong Minjae Kang Songhwai Oh
研究问题:近年来,使用序列模型预测未来轨迹来解决决策问题显示出了有希望的结果。
动机:本文进一步利用序列预测方法在更广泛的领域如长期规划、基于视觉的控制和多任务决策中发挥作用。
方法:为此,我们提出了一种利用基于扩散的生成序列模型在潜在空间中规划一系列里程碑,并让代理跟随这些里程碑来完成给定任务的方法。
效果:我们的方法在离线强化学习基准测试和一个视觉操作环境中进行了演示,结果表明,我们的方法在解决长程稀疏奖励任务和多任务问题上优于离线RL方法,同时也在最具挑战性的基于视觉的操作基准上实现了最先进的性能。
ODE-based Recurrent Model-free Reinforcement Learning for POMDPs
Xuanle Zhao Duzhen Zhang Han Liyuan Tielin Zhang Bo XU
研究问题:如何从原始观察中推断出未知的物理或生物环境中的信息,特别是在部分可观察的环境中。
动机:在部分可观察的环境中,如何提取未被观察到的信息是一个难题。通过使用具有紧凑上下文的循环策略,基于上下文的强化学习提供了一种灵活的方法来从历史转换中提取未被观察到的信息。
方法:我们提出了一种新的基于ODE的循环模型,该模型结合了无模型强化学习(RL)框架,用于解决部分可观察马尔可夫决策过程(POMDPs)。
效果:我们的实验表明,我们的方法在各种部分可观察的连续控制和元RL任务上都是有效的。此外,我们的实验还表明,由于ODE能够模拟不规则采样的时间序列,因此我们的方法对不规则的观察是鲁棒的。
Offline RL with Discrete Proxy Representations for Generalizability in POMDPs
Pengjie Gu Xinyu Cai Dong Xing Xinrun Wang Mengchen Zhao Bo An
研究问题:本文旨在解决离线强化学习在现实场景中遇到的部分可观察性问题,即训练时数据完全可见,但执行时可能遇到被隐藏的观察结果,以及训练时无法知道哪些观察结果是隐藏的。
动机:现有的离线强化学习方法对于部分可观察性的问题处理不足,训练出的模型在面对隐藏的观察结果时表现不佳。
方法:提出一种新的离线强化学习方法——Offline RL with DiscrEte pRoxy representations (ORDER)。该方法通过学习离散的状态表示来提高对各种隐藏观察结果的鲁棒性,并使用代理表示从被隐藏的部分可观察的轨迹中恢复状态。
效果:实验结果表明,ORDER在处理各种部分可观察的离线强化学习场景中表现出色,证明了离散代理表示在泛化性能上的重要性。此外,由于ORDER是一个灵活的框架,可以适用于任何离线强化学习算法,因此有望推动强化学习策略在实际世界中应对各种部分可观察性的挑战。
CEIL: Generalized Contextual Imitation Learning
Jinxin Liu Li He Yachen Kang Zifeng Zhuang Donglin Wang Huazhe Xu
研究问题:本文提出了一种通用且广泛应用的模仿学习(IL)算法,名为ContExtual Imitation Learning (CEIL)。
动机:受到后见之明信息匹配的启发,我们通过显式地学习后见之明嵌入函数和使用后见之明嵌入来学习上下文策略,从而推导出CEIL。
方法:为了实现IL的专家匹配目标,我们主张优化一个上下文变量,使其偏向于模仿专家行为。
效果:在流行的MuJoCo任务(在线)和D4RL数据集(离线)上进行实证评估,与先前最先进的基线相比,CEIL在大多数在线IL任务中更具有样本效率,并在离线任务中实现了更好或相当的性能。
SPQR: Controlling Q-ensemble Independence with Spiked Random Model for Reinforcement Learning
Dohyeok Lee Seungyub Han Taehyun Cho Jungwoo Lee
研究问题:深度强化学习在面对更复杂的任务或包含分布外数据的离线数据集时,如何减轻过度估计偏差以实现成功的表现。
动机:为了克服过度估计的偏差,研究人员已经探索了利用多个Q函数多样性的Q学习集成方法。
方法:通过引入基于随机矩阵理论的新型Q集成独立性正则化损失,提出了一种用于强化学习的“尖峰Wishart Q集成独立性正则化”(SPQR)方法。
效果:实验结果表明,SPQR在在线和离线RL基准测试中均优于基线算法。
VOCE: Variational Optimization with Conservative Estimation for Offline Safe Reinforcement Learning
Jiayi Guan Guang Chen Jiaming Ji Long Yang Ao Zhou Zhijun Li changjun jiang
研究问题:如何直接在离线数据集上学习满足安全约束的策略,以解决高采样成本和潜在危险的场景下的问题。
动机:现有的方法在保证安全性的同时难以实现高回报,因此需要一种能在离线数据集中优化安全策略的新方法。
方法:提出一种变分优化与保守估计算法(VOCE),通过引入概率推理和悲观估计方法来优化策略并减少OOD动作的外推误差。
效果:实验证明,VOCE算法在多个实验任务中表现优秀,特别是在安全性方面超过了现有最先进的算法。
CaMP: Causal Multi-policy Planning for Interactive Navigation in Multi-room Scenes
Xiaohan Wang Yuehu Liu Xinhang Song Beibei Wang Shuqiang Jiang
研究问题:在现实场景中,如杂乱的房间,可能没有明确的路线到达目标,如何有效地进行交互导航。
动机:传统的视觉导航假设存在多个清晰的路线,但在复杂场景中,由于障碍物属性多样且难以测量,动作和结果之间的因果关系容易混淆,导致效率低下的探索。
方法:提出一个因果图来阐明交互导航中的混淆偏见,并设计了一个多策略模型,通过探索反事实交互来减少不必要的探索。
效果:在ProcTHOR模拟器上构建了一个包含60万个任务剧集、1.2万个多房间场景的大型数据集,并通过实验证明了该方法的有效性。
Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL
Peng Cheng Xianyuan Zhan Zhihao Wu Wenjia Zhang Youfang Lin Shou cheng Song Han Wang Li Jiang
研究问题:现有的离线强化学习算法在小数据集上的性能严重依赖于数据集的规模和状态-动作空间覆盖范围,这对实际部署带来了重大挑战。
动机:通过利用系统动力学的基本对称性,可以显著提高小数据集下的离线强化学习性能。
方法:提出了一种时间反转对称(T-对称)强制执行的动态模型(TDM),建立了一对正向和反向潜在动力学之间的一致性。
效果:基于大量实验,发现TSRL在小基准数据集上表现出色,即使只使用原始样本的1%,也大大超过了最近的离线强化学习算法在数据效率和泛化能力方面的表现。
Guide Your Agent with Adaptive Multimodal Rewards
Changyeon Kim Younggyo Seo Hao Liu Lisa Lee Jinwoo Shin Honglak Lee Kimin Lee
研究问题:如何使代理能够适应未见过的环境,提高模仿学习中的泛化能力。
动机:现有的模仿学习方法在面对未见过的环境时,泛化能力较弱。
方法:提出一种名为ARP的自适应回报条件策略框架,利用预训练的多模态编码器和自然语言任务描述,通过计算视觉观察和自然语言指令在多模态嵌入空间中的相似性作为奖励信号,并使用专家演示进行训练。
效果:实验表明,ARP能有效缓解目标泛化问题,即使在面对未见过的文字指令时,也表现出优越的泛化性能。同时,通过引入预训练多模态编码器的微调方法,可以进一步提高奖励质量,从而提升性能。
AdaPlanner: Adaptive Planning from Feedback with Language Models
Haotian Sun Yuchen Zhuang Lingkai Kong Bo Dai Chao Zhang
研究问题:大型语言模型在复杂的序列决策任务中,如何进行有效的计划和反馈循环。
动机:现有的方法或采取贪婪策略,或依赖静态计划,无法适应环境反馈,导致在复杂任务和长计划视野下性能下降。
方法:提出一种闭环方法AdaPlanner,使大型语言模型代理能够根据环境反馈自适应地细化自我生成的计划。包括计划内和计划外两种策略的自适应细化,以及利用成功计划作为少样本范例的技能发现机制。
效果:在ALFWorld和MiniWoB++环境中的实验表明,AdaPlanner在使用2倍和600倍更少样本的情况下,分别比最先进的基线高出3.73%和4.11%。
Long-Term Fairness with Unknown Dynamics
Tongxin Yin Reilly Raab Mingyan Liu Yang Liu
研究问题:如何利用机器学习实现长期公平性,特别是在影响人类群体的政策中。
动机:目前的机器学习模型往往只关注短期效果,而忽视了长期公平性的问题。
方法:本文将长期公平性定义为一个在线强化学习问题,通过动态控制目标(如实现人口的公平状态)来影响人类群体。
效果:实验结果表明,该算法能够适应未知的动态变化,通过牺牲短期利益,推动政策-人口系统向更理想的平衡状态发展。在分类任务中,该算法在群体公平性方面优于其他基线方法。
Arbitrarily Scalable Environment Generators via Neural Cellular Automata
Yulun Zhang Matthew Christopher Fontaine Varun Bhatt Stefanos Nikolaidis Jiaoyang Li
研究问题:如何生成任意大的环境以提高多机器人系统的吞吐量。
动机:现有的方法只能优化相对较小的仓库环境,无法复制真实的世界仓库规模。随着环境规模的增大,搜索空间呈指数增长,这是挑战所在。此外,以前的方法是在模拟中用最多350个机器人进行测试的,而实际的仓库可以容纳数千个机器人。
方法:我们提出通过质量多样性(QD)算法来优化神经细胞自动机(NCA)环境生成器,而不是直接优化环境。我们在小环境中使用QD算法训练一系列NCA生成器,然后在测试时从生成器中生成任意大的环境。
效果:我们的研究表明,NCA环境生成器无论环境大小如何,都能保持一致、规范化的模式,显著提高了两个不同领域的多机器人系统的可扩展性,最多可容纳2350个机器人。此外,我们还证明,我们的方法可以将单个代理的强化学习策略扩展到具有相似模式的任意大的环境中。
Contextual Bandits and Imitation Learning with Preference-Based Active Queries
Ayush Sekhari Karthik Sridharan Wen Sun Runzhe Wu
研究问题:本文研究了在缺乏直接知识的情况下,学习者如何通过比较两个动作并从专家那里获得有噪声的偏好反馈来最小化执行动作的遗憾和查询次数。
动机:在许多情况下,学习者无法直接获取执行动作的奖励,而需要通过与专家的交互来获取偏好反馈。
方法:我们假设学习者可以访问一个函数类,该类可以在适当的链接函数下表示专家的偏好模型,并提出了一种利用在线回归查询的算法。
效果:对于上下文环境设置,我们的算法实现了将两者最佳结合的遗憾边界,其规模为O(min{√T, d/Δ}),其中T代表交互次数,d代表函数类的逃避维度,Δ代表最优动作在所有上下文中对所有次优动作的最小偏好。我们的算法不需要知道Δ的值,并且获得的遗憾边界与在每一轮都观察到奖励信号的标准上下文环境设置中可以实现的遗憾边界相当。此外,我们的算法只向专家查询O(min{T, d^2/Δ^2})次。然后,我们将我们的算法扩展到模仿学习设置,其中代理与未知的环境进行H步长的交互,并对遗憾和查询复杂性提供了类似的保证。有趣的是,通过基于偏好的反馈,我们的模仿学习算法可以学习出一个优于次优专家的策略,这与需要访问专家的动作和奖励信号的交互式模仿学习算法的结果相匹配。
POMDP Planning for Object Search in Partially Unknown Environment
Yongbo Chen Hanna Kurniawati
研究问题:在复杂的环境中,如何有效地搜索目标物体,如架子、桌子和床等。
动机:由于定位误差、视野有限和视觉遮挡等因素,移动机器人在复杂环境中寻找目标物体面临重大挑战。
方法:提出了一种针对3D区域中的目标搜索的POMDP(部分可观察马尔可夫决策过程)模型,并设计了感知模块和规划算法(GPOMCP)。
效果:通过Gazebo模拟实验,发现该方法比基于POMCP的基线方法能更快地找到目标物体,且成功率更高,同时计算需求相同。
Unified Off-Policy Learning to Rank: a Reinforcement Learning Perspective
Zeyu Zhang Yi Su Hui Yuan Yiran Wu Rishab Balasubramanian Qingyun Wu Huazheng Wang Mengdi Wang
研究问题:现有的离线学习排名方法往往对用户生成点击数据的点击模型做出强烈假设,需要针对不同的点击模型进行特定调整。
动机:本文旨在统一排名过程,并将其视为马尔可夫决策过程,通过离线强化学习直接学习最优排名。
方法:提出一种与点击模型无关的统一离线学习排名(CUOLR)方法,该方法可以很容易地应用于各种点击模型。
效果:在各种大规模数据集上的实验结果表明,CUOLR始终优于最先进的离线学习排名算法,同时在不同的点击模型下保持了一致性和鲁棒性。
Natural Actor-Critic for Robust Reinforcement Learning with Function Approximation
Ruida Zhou Tao Liu Min Cheng Dileep Kalathil Panganamala Kumar Chao Tian
研究问题:本文旨在研究强化学习中的鲁棒性,以确定一个在训练模拟器和测试环境之间具有模型匹配性的高性能策略。
动机:现有的基于策略的鲁棒强化学习算法主要关注易于进行鲁棒策略评估的不确定性集合下的表格设置,但在状态数量增加时不再可行。
方法:我们提出了两种新的不确定性集合形式,一种基于双重采样,另一种基于积分概率度量。这两种方法都使得大规模鲁棒强化学习即使在只能访问模拟器的情况下也具有可行性。我们还提出了一种结合了新不确定性集合并采用函数近似的鲁棒自然演员评论(RNAC)方法。
效果:我们证明了所提出的RNAC算法在函数近似误差内收敛到最优鲁棒策略的有限时间保证。最后,我们在多个MuJoCo环境和一个真实的TurtleBot导航任务中展示了由我们的RNAC方法学习的策略的鲁棒性能。
ReDS: Offline RL With Heteroskedastic Datasets via Support Constraints
Anikait Singh Aviral Kumar Quan Vuong Yevgen Chebotar Sergey Levine
研究问题:现有的离线强化学习(RL)方法在处理状态空间中行为可变性不均匀的数据集时,由于需要在整个状态空间上保持与行为策略相近的程度,往往无法有效学习。
动机:为了解决这一问题,我们提出了一种新的离线RL方法,即保守Q-learning(CQL)重加权(ReDS)。
方法:我们通过重新加权数据分布来获取近似的支持约束形式,该分布是当前策略和另一个额外策略的混合,额外的策略被训练来挖掘可能处于行为策略下的错误动作。
效果:实验结果表明,我们的方法在各种离线RL问题上,包括游戏、导航和像素级操作等,都能显著提高性能。
On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling and Beyond
Thanh Nguyen-Tang Raman Arora
研究问题:本文旨在理解如何从历史数据集中进行样本高效的序列决策学习,即离线强化学习。
动机:我们对于能够利用(价值)函数近似的样本高效算法感兴趣。
方法:我们提出了一个数据多样性的概念,它涵盖了离线RL中的覆盖度量的所有先前概念,并使用这个概念来统一基于版本空间(VS)、正则化优化(RO)和后验采样(PS)的三类离线RL算法。
效果:在标准假设下,我们证明了基于VS、RO和PS的算法实现了相当的样本效率,恢复了有标准假设下的最先进的次优性界。这一结果令人惊讶,因为之前的研究表明,与基于VS的算法相比,基于RO的算法具有不利的样本复杂度,而由于其探索性质,后验采样在离线RL中很少被考虑。值得注意的是,我们提出的用于离线RL的无模型PS算法是新颖的,其次优性界具有频率主义(即最坏情况)的性质。
Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models
Siyan Zhao Aditya Grover
研究问题:强化学习在序列决策制定中具有吸引力,但同时面临算法挑战,如保持最大表现力和进行有效学习和推理的模型选择灵活性。
动机:本文提出了一个生成框架Decision Stacks,将目标条件策略代理分解为3个生成模块,以解决这些挑战。
方法:通过独立的生成模型模拟观察、奖励和行动的时间演变,这些模型可以通过教师强制并行学习。该框架保证了表现力和灵活性,可以设计不同的模块来考虑关键因素,如架构偏差、优化目标和动态性、跨领域的可转移性和推理速度。
效果:实证结果显示,Decision Stacks在多个MDP和POMDP环境中用于离线策略优化,优于现有方法,并实现了灵活的生成决策。
A Long $N$-step Surrogate Stage Reward for Deep Reinforcement Learning
Junmin Zhong Ruofan Wu Jennie Si
研究问题:深度强化学习中高方差问题阻碍了其成功收敛,影响了任务性能,并阻碍了其在连续控制问题上的应用。
动机:为了解决这个问题,我们提出了一种新的阶段奖励估计器——长N步替代阶段奖励(LNSS)。
方法:LNSS利用未来步骤的长期奖励轨迹,通过平均奖励、收敛速度、学习成功率和Q值及奖励的方差降低来提供一致的性能改进。
效果:我们在DeepMind Control Suite和OpenAI Gym的各种环境中使用LNSS在基础深度RL算法如DDPG、D4PG和TD3中进行评估,结果显示LNSS奖励使深度RL取得了之前难以获得的良好结果,同时LNSS还使Q值的方差上限呈指数级降低。
Guarantees for Self-Play in Multiplayer Games via Polymatrix Decomposability
Revan MacQueen James R. Wright
研究问题:本文旨在探讨在多智能体系统中,通过自我对弈进行学习的机器学习方法。
动机:自我对弈可以生成大量的学习数据,但缺点是训练后的代理的行为可能与学习者通过自我互动所预期的行为大不相同。
方法:对于近似分解为一组两人零和游戏的多玩家游戏(称为常数和多矩阵游戏),其中全局ε-纳什均衡在每个子游戏中远离纳什均衡(称为子游戏稳定性),任何无外部遗憾的自我对弈学习算法都将产生具有有界脆弱性的策略。
效果:首次发现多玩家游戏的一种结构属性,使一类广泛自我对弈算法产生策略的性能保证。通过Leduc扑克的实验证明了这些发现。
State-Action Similarity-Based Representations for Off-Policy Evaluation
Brahma S Pavse Josiah P. Hanna
研究问题:本文旨在解决强化学习中的离线评估(OPE)问题,即如何估计给定固定数据集的评估策略的预期回报。
动机:现有的离线评估算法通常直接使用原始固定数据集来学习评估策略的动作值函数,这在数据效率上存在不足。
方法:本文提出了一种通过学习编码器转换固定数据集,然后将其输入到FQE中以提高FQE的数据效率的方法。同时,引入了一种针对OPE的状态-动作行为相似度度量,并使用该度量和固定数据集来学习一个模型这种度量的编码器。
效果:理论分析和实验结果表明,这种方法可以有效地提高FQE的数据效率,降低OPE误差,并在面对挑战性的OPE任务时,比其他基于OPE的表示学习方法表现更好。此外,学习到的表示还可以显著减轻FQE在不同分布偏移下的发散问题。
Game Solving with Online Fine-Tuning
Ti-Rong Wu Hung Guei Ting Han Wei Chung-Chin Shih Jui-Te Chin I-Chen Wu
研究问题:如何通过在线微调优化AlphaZero算法,以解决游戏中所有可能的败者走法,并获取完整的策略。
动机:目前的AlphaZero算法在游戏对战中表现出超人的水平,但其强大的策略和价值预测功能在寻找全面的游戏解决方案时可能会产生误导,特别是在评估那些在自我对弈过程中不可能出现的弱势走法时。
方法:本文提出了两种在线微调的方法,以学习为游戏解决量身定制的策略。
效果:实验证明,使用在线微调可以在解决一系列具有挑战性的7x7 Killall-Go问题时,仅使用23.54%的计算时间,相比于没有在线微调的基线。这种方法的效果随着问题规模的增大而增大,并且可以扩展到任何用于解决问题的树搜索算法。
Weakly Coupled Deep Q-Networks
Ibrahim El Shar Daniel R. Jiang
研究问题:如何提高弱耦合马尔可夫决策过程(WCMDP)类问题的强化学习性能。
动机:弱耦合马尔可夫决策过程在实际应用中频繁出现,但其子问题数量增多时会变得难以处理。
方法:提出弱耦合深度Q网络(WCDQN),使用一个网络训练多个DQN“子代理”,然后将他们的解决方案结合起来建立最优行动值的上界,指导主DQN代理向最优性发展。
效果:数值实验表明,与DQN和相关技术相比,WCDQN在最多有10个子问题、总动作数为$3^{10}$和连续状态空间的情况下,具有更快的收敛速度。
Pitfall of Optimism: Distributional Reinforcement Learning by Randomizing Risk Criterion
Taehyun Cho Seungyub Han Heesoo Lee Kyungjae Lee Jungwoo Lee
研究问题:分布强化学习算法尝试利用估计的不确定性进行探索,如面对不确定性的乐观态度。然而,使用估计的方差进行乐观探索可能导致数据收集的偏差,阻碍收敛或性能。
动机:本文提出了一种新的分布强化学习方法,通过随机化风险标准来选择行动,而不失去风险中性目标。
方法:我们通过扭曲风险度量来提供一种扰动的分布性贝尔曼最优性算子。同时,我们证明了该方法在较弱的收缩性质下的收敛性和最优性。
效果:我们的理论研究结果支持该方法不会陷入偏见的探索,并保证收敛到最优回报。最后,我们在包括Atari 55游戏在内的各种环境中实证地表明,我们的方法优于其他现有的基于分布的算法。
Large Language Models Are Semi-Parametric Reinforcement Learning Agents
Danyang Zhang Lu Chen Situo Zhang Hongshen Xu Zihan Zhao Kai Yu
研究问题:提出一种基于大型语言模型(LLM)的新型可进化代理框架作为Rememberer,以模拟人类的记忆和推理机制。
动机:通过给LLM配备长期的经验记忆,使得Rememberer能够利用过去的经验,即使面对不同的任务目标也能表现出色,超越了使用固定示例或短暂工作记忆的LLM代理。
方法:引入了经验记忆强化学习(RLEM)来更新记忆,使整个系统能从成功和失败的经验中学习,并在不微调LLM参数的情况下提升其能力。
效果:在两个RL任务集上进行的大量实验表明,Rememberer的平均结果超过了先前的最佳性能4%和2%,证明了其优越性和鲁棒性。
Robust Multi-Agent Reinforcement Learning via Adversarial Regularization: Theoretical Foundation and Stable Algorithms
Alexander Bukharin Yan Li Yue Yu Qingru Zhang Zhehui Chen Simiao Zuo Chao Zhang Songan Zhang Tuo Zhao
研究问题:多智能体强化学习(MARL)在多个领域表现出了良好的效果,但其策略通常缺乏鲁棒性,对环境的小变化敏感。
动机:为了解决MARL在真实世界部署中可能遇到的环境差异问题,提高其鲁棒性。
方法:提出了一种新的鲁棒MARL框架ERNIE,通过对抗正则化来增强策略相对于状态观察和行动的Lipschitz连续性。同时,将对抗正则化重新表述为Stackelberg博弈以降低训练不稳定性。
效果:实验证明,ERNIE框架能有效抵抗噪声观察、变化的转换动态和恶意行动的影响。在交通灯控制和粒子环境等任务上表现优秀。
Policy Space Diversity for Non-Transitive Games
Jian Yao Weiming Liu Haobo Fu Yaodong Yang Stephen Marcus McAleer QIANG FU Yang Wei
研究问题:如何提高多智能体非传递博弈中近似纳什均衡的算法效率和效果。
动机:现有的Policy-Space Response Oracles (PSRO)算法在提升策略多样性上存在不足,且多样性的提升并不一定能带来更好的近似纳什均衡。
方法:提出一种新的策略多样性度量方式,并开发了一种基于状态-动作样本优化该度量的方法。将这种多样性正则化方法融入到PSRO的最佳响应求解中,形成新的PSRO变体——"策略空间多样性" PSRO (PSD-PSRO)。
效果:实验证明,PSD-PSRO在单状态游戏、Leduc和Goofspiel等任务上,比现有最佳的PSRO变体更能产生不可被利用的策略。
Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation
Wenhao Ding Laixi Shi Yuejie Chi Ding Zhao
研究问题:本文旨在解决强化学习中的一种关键稳健性问题,即对抗虚假相关性的稳健性,其中不同部分的状态没有由未观察到的混淆因素引起的相关性。
动机:在现实生活中的任务中,虚假相关性无处不在,例如自动驾驶汽车通常在白天观察到繁忙的交通,而在夜间由于未观察到的人类活动而只有轻微的交通。学习这种无用甚至有害的相关性的模型在测试案例中的混淆因素与训练案例偏离时可能会灾难性地失败。
方法:为了解决这个问题,我们提出了Robust State-Confounded Markov Decision Processes(RSC-MDPs),并从理论上证明了它与其他稳健RL算法相比在避免学习虚假相关性方面的优越性。我们还设计了一个经验性的算法来学习RSC-MDPs的稳健最优策略,该策略在八个现实的自动驾驶和操作任务中超越了所有基线。
效果:实验结果表明,我们的RSC-MDPs和学习策略在所有测试的任务上都优于其他基线,显示出了良好的稳健性和泛化能力。
Autonomous Capability Assessment of Sequential Decision-Making Systems in Stochastic Settings
Pulkit Verma Rushang Karia Siddharth Srivastava
研究问题:如何让用户安全地使用AI系统,特别是那些具有序列决策能力的黑箱AI系统。
动机:尽管AI系统的使用越来越普遍,但用户对其能力和限制的理解仍然不足,这可能导致误用和风险。
方法:本文提出了一种新的方法,通过主动学习与黑箱SDM系统交互,学习并解释其能力的概率模型。
效果:理论分析和实验证明,该方法可以在少量样本中泛化,并能有效地描述任意黑箱SDM代理的能力,且能保证学习过程收敛到正确的代理模型。
Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management
Dhawal Gupta Yinlam Chow Azamat Tulepbergenov Mohammad Ghavamzadeh Craig Boutilier
研究问题:如何有效地利用强化学习驱动对话管理,以实现非短视的、丰富的对话和最大化用户满意度。
动机:尽管强化学习和语言模型取得了进步,但使用强化学习来驱动对话聊天机器人仍然面临重大挑战,如在线探索的成本高昂和可能产生的不安全因素。
方法:开发了专门针对对话规划的各种强化学习算法,利用最新的混合专家语言模型(MoE-LMs),通过利用MoE-LM的结构,显著减小了动作空间的大小,提高了基于强化学习的对话管理的效能。
效果:在开放领域对话中进行评估,展示了生成的语句的意图多样性和整体对话管理性能方面的有效性。
Online Nonstochastic Model-Free Reinforcement Learning
Udaya Ghai Arushi Gupta Wenhan Xia Karan Singh Elad Hazan
研究问题:本文旨在调查适用于动态或甚至对抗性环境的鲁棒无模型强化学习算法。
动机:传统的基于状态的策略在存在未建模干扰的环境中往往难以应对挑战,优化线性基于状态的策略即使在线性动力系统等良性环境中也会带来非凸目标的障碍。
方法:从最新的基于模型的控制进展中获得灵感,引入一类以干扰信号为中心的新策略。我们定义了这些信号的几个类别,称之为伪干扰,并开发了基于它们的相应策略类。我们为优化这些策略提供了高效实用的算法。
效果:我们研究了在线适应强化学习代理面对对抗性干扰的任务。我们的方法与任何黑盒无模型方法无缝集成,在处理线性动力学时提供可证明的遗憾保证。这些遗憾保证无条件地改善了最知名的结果,即在没有依赖状态空间维度的情况下进行带状线性控制。我们在各种标准的RL基准上评估我们的方法,并展示了改进的鲁棒性。
Provably Efficient Algorithm for Nonstationary Low-Rank MDPs
Yuan Cheng Jing Yang Yingbin Liang
研究问题:本文旨在研究强化学习在不断变化的环境中的非平稳马尔可夫决策过程,以解决深度强化学习中的未知表示问题。
动机:目前的理论研究主要关注于表格和线性(混合)MDPs,这并不能捕捉到深度强化学习中的未知表示。
方法:本文首次尝试在剧集低秩MDPs中研究非平稳强化学习,其中转换核和奖励都可能随时间变化,而低秩模型除了线性状态嵌入函数外还包含未知表示。我们首先提出了一种依赖于参数的策略优化算法,称为PORTAL,并将其进一步改进为无需任何先验非平稳性知识的参数自由版本的Ada-PORTAL。
效果:对于这两种算法,我们都提供了平均动态次优差距的上界,这表明只要非平稳性不是显著大,PORTAL和Ada-PORTAL都是样本高效的,并且可以以多项式样本复杂度实现任意小的平均动态次优差距。
Trust Region-Based Safe Distributional Reinforcement Learning for Multiple Constraints
Dohyeong Kim Kyungjae Lee Songhwai Oh
研究问题:在安全关键性的机器人任务中,如何降低潜在失败并满足避免碰撞、限制能源消耗和保持平衡等多重约束。
动机:传统的强化学习算法往往无法处理这些多重约束,因此需要提出一种能够处理这些约束的安全强化学习方法。
方法:提出了一种基于信任区域的名为安全分布演员评论家(SDAC)的多约束安全强化学习算法。该算法通过引入梯度集成方法和开发TD(λ)目标分布来管理不可行问题和估计风险厌恶约束。
效果:通过大量的实验表明,与现有的安全强化学习基线相比,SDAC在满足所有约束的情况下需要的步骤数减少了1.93倍,并且在单约束任务中的约束违反次数减少了1.78倍。
Cross-Episodic Curriculum for Transformer Agents
Lucy Xiaoyang Shi Yunfan Jiang Jake Grigsby Linxi Fan Yuke Zhu
研究问题:如何提高Transformer代理的学习效率和泛化能力。
动机:通过将跨剧经验纳入Transformer的上下文中,形成一种课程形式,以此提高学习效率和泛化能力。
方法:提出了一种新的算法——跨剧课程(CEC),通过在线学习和混合质量演示的顺序结构来构建包含学习进展和熟练度增加的课程。
效果:在两个代表性场景下展示了CEC的有效性,包括深度思维实验室的多任务强化学习和RoboMimic的模仿学习,无论在哪种情况下,CEC产生的策略都表现出优越的性能和强大的泛化能力。
Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning
Gen Li Wenhao Zhan Jason D. Lee Yuejie Chi Yuxin Chen
研究问题:本文研究了混合环境下的表格强化学习,即如何在已知的离线数据集和未知在线环境交互中进行有效的策略微调。
动机:如何高效利用在线数据强化和补充离线数据集,以实现有效的策略微调是关键问题。
方法:借助奖励无关探索和离线强化学习的最新进展,设计了一个三阶段的混合强化学习算法,该算法在样本复杂度上超越了纯离线强化学习和纯在线强化学习。
效果:提出的算法在数据收集过程中不需要任何奖励信息。理论基于新的概念“单策略部分集中度”,它捕捉了分布不匹配和覆盖不足之间的权衡,并指导了离线数据和在线数据的交互。
Bayesian Risk-Averse Q-Learning with Streaming Observations
Yuhao Wang Enlu Zhou
研究问题:如何通过模拟训练环境进行强化学习,并解决由于缺乏数据导致的模型在训练环境和真实环境之间的不匹配问题。
动机:为了解决模型不确定性问题,我们采用了无限期的贝叶斯风险MDP(BRMDP)方法,利用贝叶斯后验来估计转换模型,并引入风险函数以考虑模型不确定性。
方法:我们开发了一种多阶段贝叶斯风险规避Q学习算法,该算法使用来自真实环境的流式观察结果来解决BRMDP问题。
效果:我们的理论分析表明,BRMDP能够平衡稳健性和保守性。我们的算法学习到了一种依赖于真实世界观察结果的风险规避最优策略,并且我们为其提供了强收敛性的保证。
Bi-Level Offline Policy Optimization with Limited Exploration
Wenzhuo Zhou
研究问题:本文旨在解决离线强化学习中由于数据集缺乏充分探索而导致的分布偏移问题。
动机:现有的离线强化学习方法在处理分布偏移问题上存在困难,尤其是在函数近似的情况下。
方法:本文提出了一种双层结构的策略优化算法,该算法在上下两层之间建立了一个分层的交互模型。下层关注于构建一个价值估计的信心集合,同时控制由于分布不匹配而产生的不确定性。上层则试图从下层形成的信心集合中最大化一个保守的价值估计。
效果:实验结果表明,该方法在合成、基准和真实世界的离线RL数据集上都表现出色,与最先进的方法竞争。
Efficient Adversarial Attacks on Online Multi-agent Reinforcement Learning
Guanlin Liu Lifeng Lai
研究问题:本研究旨在理解对抗性攻击对多智能体强化学习(MARL)模型的影响,以保障该模型的安全应用。
动机:由于多智能体强化学习在许多领域都有广泛的应用,因此了解对抗性攻击对其的影响对于保证其安全使用至关重要。
方法:我们考虑了一个外生攻击者可以修改代理接收奖励之前或环境接收动作之前的奖励或操纵动作的情况。攻击者的目标是引导每个代理进入目标策略,或在攻击者选择的特定奖励函数下最大化累积奖励,同时最小化反馈和动作的操纵量。我们首先展示了仅行动中毒攻击和仅奖励中毒攻击的局限性,然后引入了结合行动中毒和奖励中毒的攻击策略。
效果:实验结果表明,即使攻击者对底层环境和代理的算法没有先验信息,混合攻击策略也能有效地攻击MARL代理。
Successor-Predecessor Intrinsic Exploration
Changmin Yu Neil Burgess Maneesh Sahani Samuel Gershman
研究问题:如何在强化学习中进行有效的探索,特别是在外部奖励稀疏的环境中。
动机:现有的强化学习方法主要关注基于未来状态前景的度量来构造内在奖励,忽视了转换序列的回顾性结构中所包含的信息。
方法:提出了一种名为“后继-前驱内在探索”(SPIE)的新的内在奖励算法,该算法结合了前瞻性和回顾性信息,使代理能够利用回顾性信息产生具有结构意识的探索行为。
效果:实验结果表明,SPIE在奖励稀疏和瓶颈状态环境中产生了更有效、更符合生态学原理的探索行为,并且在稀疏奖励的Atari游戏中,使用SPIE的深度强化学习代理比现有方法获得了更强的实证性能。
Effectively Learning Initiation Sets in Hierarchical Reinforcement Learning
Akhil Bagaria Ben M Abbatematteo Omer Gottesman Matt Corsaro Sreehari Rammohan George Konidaris
研究问题:在分层强化学习中,一个代理学习选项必须解决三个问题:识别选项的子目标(终止条件)、学习策略、以及学习该策略将成功的地方(启动集)。
动机:虽然终止条件通常首先被确定,但选项的策略和启动集必须同时学习,这是具有挑战性的,因为启动集依赖于选项的策略,而这个策略会随着代理的学习而改变。因此,从选项执行中获得的数据会随着时间的推移变得无效,导致启动集不准确,从而损害下游任务的性能。
方法:我们提出了使用离线策略估计和分类工具来解决学习启动集中特有的三个问题:数据非平稳性、时间信用分配和悲观主义。
效果:我们的方法是快速学习到更高质量的启动集,比现有方法更快(在MiniGrid和Montezuma's Revenge中),并能自动发现机器人操作的有希望的抓取(在Robosuite中),并在MuJoCo中的一个具有挑战性的迷宫导航任务中提高了一种最先进的选项发现方法的性能。
StateMask: Explaining Deep Reinforcement Learning through State Mask
Zelei Cheng Xian Wu Jiahao Yu Wenhai Sun Wenbo Guo Xinyu Xing
研究问题:尽管深度强化学习(DRL)代理在许多具有挑战性的场景中表现出色,但这些代理的黑箱特性极大地限制了它们在关键领域的应用。
动机:为了解决这一问题,我们提出了一种新的方法StateMask,用于识别对代理最终奖励最关键的状态。
方法:StateMask的基本思想是学习一个掩码网络,该网络可以屏蔽目标代理,并在某些步骤上迫使它采取随机行动,而不会影响代理的性能。通过精心设计,我们可以从理论上保证被屏蔽的代理与原始代理的表现相似。
效果:我们在各种流行的RL环境中评估了StateMask,并证明其在解释保真度方面优于现有的解释器。此外,我们还展示了StateMask在发起对抗性攻击和修补策略错误等方面的优势。
Diverse Conventions for Human-AI Collaboration
Bidipta Sarkar Andy Shih Dorsa Sadigh
研究问题:如何生成多样化的合作多智能体游戏中的约定,以提高新伙伴交互时的泛化能力。
动机:标准多智能体强化学习技术如自我对弈,会收敛于任意和非多样的约定,导致与新伙伴交互时表现差。
方法:通过在自我对弈中最大化约定的奖励,同时在与先前发现的约定(交叉对弈)中最小化其奖励,来生成多样化的约定。
效果:在各种多智能体协作游戏中,包括"Overcooked",发现该技术可以适应人类的约定,并在与真实用户配对时超越人类水平的表现。
Scenario Diffusion: Controllable Driving Scenario Generation With Diffusion
Ethan Pronovost Meghana Reddy Ganesina Noureldin Hendy Zeyu Wang Andres Morales Kai Wang Nicholas Roy
研究问题:如何有效地生成可控的合成交通场景,以扩大自动驾驶车辆的安全性验证。
动机:现有的自动化生成合成交通场景的方法无法提供足够的控制能力,且无法适应不同的地理区域。
方法:提出一种名为“场景扩散”的新型扩散基础架构,通过结合潜在扩散、目标检测和轨迹回归,同时生成代理的姿态、方向和轨迹分布。这种分布是以地图和描述所需场景的令牌集为条件,从而提供对生成的场景的额外控制。
效果:实验证明,该方法具有足够的表现力来模拟多样化的交通模式,并能推广到不同的地理区域。
Eliciting User Preferences for Personalized Multi-Objective Decision Making through Comparative Feedback
Han Shao Lee Cohen Avrim Blum Yishay Mansour Aadirupa Saha Matthew Walter
研究问题:提出一种多目标决策框架,以适应用户对不同目标的偏好,通过策略比较学习偏好。
动机:现有的模型中,每个用户对各个目标的重要性有不同的偏好,但往往未知。我们的目标是为给定的用户计算一个接近最优的策略。
方法:我们的模型包括一个已知的马尔可夫决策过程和一个向量值奖励函数,每个用户都有一个未知的偏好向量来表示每个目标的相对重要性。我们考虑两种用户反馈模型,一种是用户提供两个策略并返回他们更喜欢的策略作为反馈,另一种是用户提供两个带权重的代表轨迹集并选择他们更喜欢的一个。在这两种情况下,我们都提出了一种算法,该算法使用的数量比较查询与目标数量呈准线性关系。
效果:实验结果表明,我们的方法可以在满足用户需求的同时,有效地计算出接近最优的策略。
On Imitation in Mean-field Games
Giorgia Ramponi Pavel Kolev Olivier Pietquin Niao He Mathieu Lauriere Matthieu Geist
研究问题:在平均场博弈(MFGs)中探索模仿学习(IL)的问题,目标是模仿遵循未知支付函数的Nash均衡策略的代理群体的行为。
动机:与单代理IL相比,MFGs中的IL提出了新的挑战,特别是当奖励函数和转移核都依赖于种群分布时。
方法:我们引入了一种新的解决方案概念,称为纳什模仿差距。然后我们证明,当只有奖励依赖于种群分布时,MFGs中的IL可以简化为具有类似保证的单代理IL。然而,当动态依赖种群时,我们提供了一个新的最大值边界,表明在这种情况下IL更难实现。为了解决这个问题,我们提出了一个新的对抗性公式,其中强化学习问题被一个平均场控制(MFC)问题所取代。
效果:实验结果表明,这种新的方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Optimistic Exploration in Reinforcement Learning Using Symbolic Model Estimates
Sarath Sreedharan Michael Katz
研究问题:如何利用符号模型和强化学习解决稀疏奖励设置中的问题。
动机:现有的方法受限于对底层问题的符号近似假设,需要更高效的方法进行探索。
方法:提出一种新的乐观符号近似学习方法,通过学习模型动态并结合自动规划社区开发的快速多样化规划器进行优化探索。
效果:在多个基准领域测试该方法,并与其他RL策略进行比较,证明其有效性。
RoboCLIP: One Demonstration is Enough to Learn Robot Policies
Sumedh Anand Sontakke Jesse Zhang Séb Arnold Karl Pertsch Erdem Biyik Dorsa Sadigh Chelsea Finn Laurent Itti
研究问题:强化学习中奖励规范设计是一个困难的问题,需要大量的专家监督来设计强大的奖励函数。
动机:受视频和语言模型(VLMs)领域进展的启发,我们提出了RoboCLIP,一种在线模仿学习方法,使用单个示范(克服大数据需求)以视频演示或任务的文本描述形式生成奖励,而无需手动奖励函数设计。
方法:RoboCLIP利用预训练的VLMs进行奖励生成,无需任何微调。使用RoboCLIP奖励训练的强化学习代理在下游机器人操作任务上表现出比其他竞争模仿学习方法高2-3倍的零样本性能,仅使用一个视频/文本示范。
效果:实验结果表明,RoboCLIP能够在不需要大量专家演示的情况下,通过单次示范生成有效的奖励函数,显著提高了强化学习代理的性能。
Demo2Code: From Summarizing Demonstrations to Synthesizing Code via Extended Chain-of-Thought
Huaxiaoyue Wang Gonzalo Gonzalez-Pumariega Yash Sharma Sanjiban Choudhury
研究问题:如何将语言指令和示范转化为机器人个性化任务的代码。
动机:虽然大型语言模型在将语言指令转化为机器人任务代码方面表现出色,但将示范转化为任务代码仍然是一个挑战,因为示范和代码的长度和复杂性都很大,直接学习映射是困难的。
方法:本文提出了一个名为Demo2Code的新框架,该框架通过扩展思维链和定义一个连接两者的共同潜在规范,从示范中生成机器人任务代码。该框架采用稳健的两阶段过程:(1)一种递归总结技术,将示范压缩成简洁的规范;(2)一种从生成的规范中递归扩展每个函数的代码合成方法。
效果:我们在各种机器人任务基准上进行了广泛的评估,包括一个新的游戏基准Robotouille,该基准旨在模拟厨房环境中的各种烹饪任务。
Performance Bounds for Policy-Based Average Reward Reinforcement Learning Algorithms
Yashaswini Murthy Mehrdad Moharrami R. Srikant
研究问题:如何为平均奖励设置的近似策略迭代和强化学习算法获得有意义的性能边界。
动机:在平均奖励目标有意义的应用中,通常使用折扣因子接近1的折扣奖励公式,但这会导致性能边界随着期望范围的平方而扩展。因此,如何获得有限时间的错误边界是一个开放的问题。
方法:通过获得第一个在策略评估和策略改进错误为零时趋于零的平均奖励MDP的非平凡有限时间错误边界来解决这个问题。
效果:实验结果表明,这种方法可以在策略评估和策略改进错误为零时获得有限时间的错误边界,从而解决了这个问题。
Information-guided Planning: An Online Approach for Partially Observable Problems
Matheus Aparecido Do Carmo Alves Amokh Varma Yehia Elkhatib Leandro Soriano Marcolino
研究问题:本文提出了一种新的在线部分可观察性规划算法IB-POMCP。
动机:现有的规划算法在处理稀疏奖励配置的场景时存在限制,我们的目标是通过使用世界信念熵的估计来指导树搜索过程,以改善决策过程。
方法:我们的方法被称为信息引导规划过程,它结合了一种新的I-UCB函数,通过这种方式,该算法在几个基准场景中的表现优于最先进的基线,并具有理论收敛保证。
效果:实验结果表明,我们的算法在奖励和推理时间方面都取得了显著的改进。
Regularity as Intrinsic Reward for Free Play
Cansu Sancaktar Justus Piater Georg Martius
研究问题:提出一种新的内在激励奖励信号——规律性,用于指导强化学习中的任务探索。
动机:从儿童发展中得到启示,认为追求结构和秩序有助于引导探索偏向于未受朴素不确定性影响的内在奖励的任务子空间。
方法:将规律性作为内在奖励(RaIR)进行操作化,并在基于模型的强化学习中使用。在合成环境中展示追求规律性目标可以产生的结构化模式,并在多目标机器人操纵环境中展示该方法的优势。
效果:在自由游戏中引入RaIR并将其作为内在奖励来补充模型的知识不确定性,观察到自主构建塔和其他规律结构,从而显著提高了装配任务的零样本下游任务性能。
Tempo Adaptation in Non-stationary Reinforcement Learning
Hyunin Lee Yuhao Ding Jongmin Lee Ming Jin Javad Lavaei Somayeh Sojoudi
研究问题:本文旨在解决非平稳强化学习中代理与环境之间的“时间同步”问题,这是阻碍其实际应用的关键因素。
动机:在现实中,环境的变化发生在真实经过的时间($t$)上,而不是在回合进度($k$)上。现有的工作在每一回合$k$中,代理先进行轨迹生成和策略训练,然后进入下一回合$k+1$。但在时间不同步的环境中,代理在时间$t_k$分配$\Delta t$进行轨迹生成和训练,然后在$t_k+\Delta t$进入下一回合。尽管总的回合数($K$)是固定的,但代理由于选择的交互时间($t_1,t_2,...,t_K$)不同而积累不同的轨迹,这对策略的次优差距产生重大影响。
方法:我们提出了一种主动同步节奏(Proactively Synchronizing Tempo, $\texttt{ProST}$)框架,通过最小化其性能指标(即动态遗憾)的上界来计算一个次优序列{$t_1,t_2,...,t_K$}。我们的主要贡献是证明一个次优的{$t_{1:K}$}在策略训练时间和环境变化速度(环境节奏)之间进行了权衡。理论上,这项工作开发了一个次优的{$t_{1:K}$}作为环境非平稳性的函数,同时也实现了次线性的动态遗憾。
效果:我们在各种高维非平稳环境中的实验评估表明,$\texttt{ProST}$框架在次优的{$t_{1:K}$}上实现了比现有方法更高的在线回报。
Conformal Prediction for Uncertainty-Aware Planning with Diffusion Dynamics Model
Jiankai Sun Yiqi Jiang Jianing Qiu Parth Talpur Nobel Mykel Kochenderfer Mac Schwager
研究问题:如何量化用于机器人任务规划的扩散模型的不确定性。
动机:在不确定、动态和部分可观察的环境中,机器人应用需要对轨迹预测模型的不确定性进行量化。
方法:使用Conformal Prediction(CP)对扩散模型进行不确定性量化,通过改变训练损失函数鼓励更稳健的性能,并在测试时用CP过程进行校准以获得具有保证覆盖级别的轨迹预测覆盖集。
效果:实验结果表明,该方法能够降低学习到的轨迹预测模型的不确定性,并在现有的离线RL基准测试和挑战性连续规划任务上优于先前的算法。
Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery
Katie Z Luo Zhenzhen Liu Xiangyu Chen Yurong You Sagie Benaim Cheng Perng Phoo Mark Campbell Wen Sun Bharath Hariharan Kilian Q Weinberger
研究问题:如何利用人类反馈的强化学习方法改进自主车辆中的机器学习方法,使其更好地符合人类期望。
动机:尽管强化学习在大型语言模型中取得了成功,但在自主车辆研究中的影响却无法比拟。在自主车辆中,与人类期望的对齐是至关重要的。
方法:提出将类似的基于强化学习的方法应用于无监督的对象发现,即从LiDAR点中学习检测对象,而无需任何训练标签。使用简单的启发式方法模拟人类反馈,并将其组合成一个简单的奖励函数,该函数与其分数正相关于边界框的准确性。
效果:实验证明,该方法不仅更准确,而且比先前的对象发现工作训练速度快几个数量级。
$\texttt{TACO}$: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning
Ruijie Zheng Xiyao Wang Yanchao Sun Shuang Ma Jieyu Zhao Huazhe Xu Hal Daumé III Furong Huang
研究问题:尽管强化学习取得了进展,但样本效率低下仍是一个重大障碍。
动机:现有的尝试通过创建自我监督的辅助任务来解决这一问题,但这些目标通常不足以学习代表最优策略或值函数的表示,并且它们往往考虑的是具有小的、抽象的离散动作空间的任务,从而忽视了连续控制中动作表示学习的重要性。
方法:本文介绍了一种简单而强大的时间对比学习法——TACO,它同时学习状态和动作表示,优化当前状态与动作序列表示和相应未来状态表示之间的互信息。
效果:理论上,TACO可以学习包含足够控制信息的状态和动作表示,从而提高样本效率。在在线RL方面,TACO在Deepmind Control Suite的九个具有挑战性的视觉连续控制任务上平均在一百万次环境交互步骤后提高了40%的性能。此外,我们还表明TACO也可以作为现有离线视觉RL方法的一个即插即用模块,为不同质量的离线数据集建立新的离线视觉RL的最先进性能。
On the Importance of Exploration for Generalization in Reinforcement Learning
Yiding Jiang J Zico Kolter Roberta Raileanu
研究问题:本文旨在解决深度学习强化学习中,现有方法主要关注表示学习,忽视了特定于强化学习的探索性问题。
动机:作者假设智能体的探索策略在其适应新环境的能力中起着关键作用。
方法:通过在表格化情境马尔可夫决策过程(MDP)中的一系列实验,提出了一种名为EDE的方法,该方法通过Q值分布的集合来鼓励对具有高度认识不确定性的状态进行探索。
效果:提出的算法是第一个在高维观察的强化学习泛化基准Procgen和Crafter上实现强大性能的价值基础方法。
Provably Efficient Offline Goal-Conditioned Reinforcement Learning with General Function Approximation and Single-Policy Concentrability
Hanlin Zhu Amy Zhang
研究问题:尽管离线条件强化学习(GCRL)在许多先前的工作中已经证明了其经验成功,但是当状态空间巨大且离线数据集仅覆盖我们要学习的策略时,高效离线GCRL算法的理论理解尚未建立。
动机:本文对一种现有的经验成功的离线GCRL算法进行了严格的理论分析,以解决上述问题。
方法:通过对目标函数的(半)强凸性属性进行修改,该算法只需要最少的假设(单策略集中性)和函数类(可实现性),就可以实现$\tilde{O}(text{poly}(1/\epsilon))$的样本复杂度(其中$\epsilon$是学习到的策略的期望次优性)。此外,该算法包含两个未交错的优化步骤,即$V$-学习和策略学习,并且由于不涉及最小最大优化问题,因此计算稳定。
效果:通过在各种真实环境中进行实验验证,我们发现修改后的算法优于先前的算法。据我们所知,这是第一个既具有一般函数近似和单策略集中性的高效算法,又不需要解决最小最大优化问题的算法,并且在经验上取得了成功。
Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning
James Queeney Mouhacine Benosman
研究问题:如何在不确定环境中进行安全决策。
动机:许多真实世界领域需要在不确定环境中进行安全决策。
方法:引入深度强化学习框架,考虑转移模型的分布,通过使用连贯的畸变风险度量来对模型不确定性采取风险规避的观点。
效果:在具有安全约束的连续控制任务实验中,证明了该框架在部署时能够在一系列受干扰的测试环境中产生稳健的性能和安全性。
Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning
Hanlin Zhu Paria Rashidinejad Jiantao Jiao
研究问题:本文提出了一种新的离线强化学习(RL)算法A-Crab,用于处理复杂环境中数据覆盖不足的问题。
动机:现有的方法在处理复杂环境和数据覆盖不足的问题上存在困难,因此需要一种更有效的算法。
方法:A-Crab算法结合了边缘重要性采样框架和演员-评论家范例,其中评论家返回对演员(策略)的评价,这些评价相对于离线数据是悲观的,并且具有小的平均(重要性加权)贝尔曼误差。
效果:实验结果表明,A-Crab算法在收敛到离线数据集中的最佳策略方面达到了最优的统计率$1/\sqrt{N}$,并且在广泛的特定超参数范围内优于数据收集行为策略。
Creating Multi-Level Skill Hierarchies in Reinforcement Learning
Joshua Benjamin Evans Özgür Şimşek
研究问题:如何为自主代理设计有用的技能层次结构?
动机:通过图形化表示自主代理与其环境的交互过程,提出一种基于模块化最大值原则的技能层次结构。
方法:自动生成技能层次结构,包括技能本身(行为、调用时机和终止条件)以及它们之间的依赖关系。
效果:在各种环境中,该方法生成的技能层次结构直观且有效,显著提高了代理的学习性能。
Iterative Reachability Estimation for Safe Reinforcement Learning
Milan Ganai Zheng Gong Chenning Yu Sylvia Lee Herbert Sicun Gao
研究问题:本文旨在解决强化学习(RL)在实际应用中的安全问题,如处理环境的随机性、提供持续状态安全的严格保证以及避免牺牲性能的过度保守行为。
动机:为了在一般随机设置中进行安全约束的强化学习,提出了一个新的框架——可达性估计用于安全策略优化(RESPO)。
方法:在无违规策略的可行集内,我们优化奖励同时保持持续的安全。在此可行集之外,我们的优化通过尽可能保证进入可行集时的累积折扣违规最小化来产生最安全的行为。
效果:我们引入了一类使用我们新的可达性估计函数来优化我们在提出的框架和类似框架(如那些同时处理多个硬性和软性约束的框架)中的算法。理论上证明,我们的算法几乎肯定地收敛到我们安全优化框架的局部最优策略。我们在Safety Gym、PyBullet和MuJoCo的各种安全RL环境中评估了提出的方法,并与最先进的基线相比,显示出在提高奖励性能和安全性方面的优势。
Imitation Learning from Vague Feedback
Xin-Qiang Cai Yu-Jie Zhang Chao-Kai Chiang Masashi Sugiyama
研究问题:如何利用人类反馈进行模仿学习,特别是在无法提供明确配对比较的情况下。
动机:传统的模仿学习需要完美的专家数据,但在许多实际应用中,获取这种数据既昂贵又不可能。
方法:通过将演示池模型化为专家和非专家数据的混合体,当专家数据的比例α已知时,可以恢复专家策略分布。对于未知的α情况,提出了一种混合比例估计方法。然后将恢复的专家策略分布与生成对抗性模仿学习相结合,形成端到端算法。
效果:实验表明,我们的方法在各种任务上优于标准和偏好基模仿学习方法。
Discovering General Reinforcement Learning Algorithms with Adversarial Environment Design
Matthew Thomas Jackson Minqi Jiang Jack Parker-Holder Risto Vuorio Chris Lu Gregory Farquhar Shimon Whiteson Jakob Nicolaus Foerster
研究问题:如何提高深度强化学习算法在未见过的环境中的泛化性能。
动机:尽管现有的元学习方法如Learned Policy Gradient (LPG)在初始阶段取得了令人印象深刻的结果,但在应用于未见过的环境时仍存在泛化差距。
方法:通过自动生成课程来最大化元学习优化器的遗憾,并提出了一种新的遗憾近似方法——算法遗憾(AR)。该方法被称为General RL Optimizers Obtained Via Environment Design (GROOVE)。
效果:实验表明,GROOVE在泛化性能上优于LPG,AR也被认为是环境设计中的关键组成部分。这种方法是迈向发现真正通用的RL算法的重要一步,能够解决广泛的真实世界环境问题。
Adjustable Robust Reinforcement Learning for Online 3D Bin Packing
Yuxin Pan Yize Chen Fangzhen Lin
研究问题:设计有效的在线3D装箱问题(3D-BPP)策略,由于输入箱子序列的不可预测性和严格的物理限制,这是一个长期存在的挑战。
动机:尽管当前的深度强化学习(DRL)方法在优化平均性能上表现出色,但在可能出现最坏情况的真实环境中,它们往往无法应对。
方法:我们首先引入一种基于排列的攻击者来研究解决在线3D-BPP的DRL和启发式方法的实际鲁棒性。然后,我们提出了一个可调节的鲁棒强化学习(AR2L)框架,允许有效地调整鲁棒性权重,以实现在平均和最坏情况下的性能平衡。
效果:实验表明,AR2L具有通用性,因为它提高了策略的鲁棒性,同时保持了对名义情况的可接受性能水平。
Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation
David Brandfonbrener Ofir Nachum Joan Bruna
研究问题:本文旨在评估在模仿学习中如何进行预训练,其中预训练和微调数据都是由专家与未知环境交互收集的轨迹。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Beyond Average Return in Markov Decision Processes
Alexandre Marthe Aurélien Garivier Claire Vernade
研究问题:在马尔可夫决策过程中,哪些奖励函数可以被精确计算和优化?
动机:在有限时间、无折扣设置下,动态规划(DP)只能对某些类别的统计量进行有效操作。我们总结了这些类别的特征,并给出了新的规划问题答案。有趣的是,我们证明即使在更一般的分布强化学习(DistRL)框架中,也只能优化广义平均值。
方法:DistRL允许我们近似评估其他功能。我们提供了结果估计器的错误边界,并讨论了这种方法的潜力和局限性。
效果:这些结果通过检查回报的整体特征,特别是风险意识策略,推动了马尔可夫决策过程的理论发展。
Higher-Order Uncoupled Dynamics Do Not Lead to Nash Equilibrium - Except When They Do
Sarah Asad Toonsi Jeff S Shamma
研究问题:多智能体学习框架中,一个智能体的策略如何响应其他智能体策略的演变。
动机:探索策略是否能够收敛到已知的解决方案概念,如纳什均衡。
方法:引入了更高阶的学习动态,包括可以捕获路径依赖等现象的辅助状态。这些动态是“基于支付”和“解耦”的,即每个智能体的动态依赖于其自身不断演变的收益,没有明确依赖于其他智能体的效用。
效果:对于任何具有孤立完全混合策略纳什均衡的具体游戏,都存在更高阶梯度博弈动态,可以引导(局部)达到该纳什均衡。然而,对于任何更高阶梯度博弈动态,都存在一个唯一的孤立完全混合策略纳什均衡的游戏,该动态不会导致纳什均衡。最后,我们发现在协调博弈中,向混合策略均衡的收敛是以动态内在不稳定为代价的。
Optimistic Active Exploration of Dynamical Systems
Bhavya Sukhija Lenart Treven Cansu Sancaktar Sebastian Blaes Stelian Coros Andreas Krause
研究问题:如何探索未知的动态系统,使得估计的模型能够以零射击方式解决多个下游任务?
动机:现有的强化学习算法通常只优化一个特定任务的策略,对于未知动态系统的探索和多任务处理存在挑战。
方法:本文提出了一种名为OPAX的主动探索算法,该算法使用校准的概率模型来量化对未知动态系统的不确定性,并乐观地最大化未知动态系统与状态观察之间的信息增益。
效果:实验结果表明,OPAX不仅在理论上具有说服力,而且在新任务的零射击规划上也表现出色。
Recurrent Hypernetworks are Surprisingly Strong in Meta-RL
Jacob Beck Risto Vuorio Zheng Xiong Shimon Whiteson
研究问题:深度强化学习(RL)在样本效率低下的情况下难以部署,元强化学习(Meta-RL)通过学习进行少次学习来解决此问题。
动机:尽管已经提出了许多专门的元强化学习方法,但最近的研究表明,端到端学习和现成的序列模型(如循环网络)相结合,是一个令人惊讶的强大基线。然而,由于缺乏支持证据,这些主张引起了争议。
方法:本文进行了实证研究,发现循环网络确实可以实现强大的性能,但使用超网络对其潜力的最大化至关重要。
效果:令人惊讶的是,当与超网络结合使用时,比现有专门方法简单得多的循环基线实际上实现了所有评估方法中最强的性能。
Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning
Yihang Yao Zuxin Liu Zhepeng Cen Jiacheng Zhu Wenhao Yu Tingnan Zhang Ding Zhao
研究问题:如何训练出能适应不同安全约束要求,无需重新训练的多功能安全强化学习策略。
动机:现有的强化学习方法在保证安全性的同时,缺乏对多样化和自适应能力的考虑。
方法:提出条件约束策略优化(CCPO)框架,包括两个关键模块:通用价值估计(VVE)用于在未见过的条件下近似值函数,以及条件变分推断(CVI)用于在策略优化过程中编码任意约束阈值。
效果:实验证明,CCPO在安全性和任务性能上优于基线,同时保持了对不同约束阈值的零射击适应性,适用于现实世界的动态应用。
Probabilistic inverse optimal control for non-linear partially observable systems disentangles perceptual uncertainty and behavioral costs
Dominik Straub Matthias Schultheis Heinz Koeppl Constantin A. Rothkopf
研究问题:本文旨在解决部分可观察的随机非线性系统中逆最优控制的问题,特别是在动作信号未知的情况下。
动机:大部分现有的工作都局限于完全可观察或线性系统,或者需要知道动作信号。因此,本文提出了一种概率方法来处理部分可观察的随机非线性系统和未被观察到的动作信号。
方法:通过结合局部线性化技术和显式的噪声特性模型,我们推导出了模型参数的近似似然函数,该函数可以在单次前向传递中计算出来。
效果:我们在两个经典控制任务和两个人类行为任务的随机和部分可观察版本上进行了定量评估。结果显示,尽管在不确定性下的序列决策中,认识论行动和实用行动是交织在一起的,但我们的方法可以区分感知因素和行为成本。这种方法具有广泛的应用性,从模仿学习到感觉运动神经科学都有应用。
Interpretable Reward Redistribution in Reinforcement Learning: A Causal Approach
Yudi Zhang Yali Du Biwei Huang Ziyan Wang Jun Wang Meng Fang Mykola Pechenizkiy
研究问题:强化学习中如何确定哪些状态-动作对负责延迟的未来奖励。
动机:当前大多数方法在构建奖励再分配时无法解释,我们提出从因果关系的角度明确地模型化状态和动作的贡献,以实现可解释的奖励再分配并保持策略不变性。
方法:提出了一种名为生成回报分解(GRD)的框架,用于处理延迟奖励场景中的政策优化。首先识别生成过程中的未观察到的马尔科夫奖励和因果关系,然后利用这些确定的因果生成模型形成紧凑表示,在代理的状态空间的最有利子空间上训练策略。
效果:理论证明未观察到的马尔科夫奖励函数以及底层的因果关系和因果模型是可识别的。实验结果优于现有方法,可视化进一步证明了我们的方法的可解释性。
Multi-task Graph Neural Architecture Search with Task-aware Collaboration and Curriculum
Yijian Qin Xin Wang Ziwei Zhang Hong Chen Wenwu Zhu
研究问题:本文旨在解决多任务图神经网络架构搜索中的挑战,即如何同时发现不同任务的最优架构并学习任务间的协作关系。
动机:现有的多任务图神经网络架构搜索方法尚未被广泛研究,对捕获不同任务之间的复杂关系和影响提出了巨大挑战。
方法:我们提出了一种新的多任务图神经网络架构搜索方法,该方法具有任务感知的协作和课程设计(MTGC3)。它能够在统一框架中管理多个架构,并通过我们的软任务协作模块学习任务之间的迁移关系。我们还开发了任务特定的课程训练策略,通过根据任务难度重新权衡不同任务的影响来改进架构搜索过程。
效果:实验表明,我们的MTGC3模型在多任务场景中优于几个基线,显示出其发现有效架构和捕获多个任务协作关系的能力。
Explore to Generalize in Zero-Shot RL
Ev Zisselman Itai Lavie Daniel Soudry Aviv Tamar
研究问题:本文旨在研究强化学习中的零样本泛化问题,即如何优化一个在一组训练任务上表现良好的策略,以在类似的未见过的任务上执行。
动机:先前的研究通过探索任务的不同不变性概念来减轻过拟合的问题,但在像ProcGen迷宫这样的问题上,有效的不变性解决方案并不存在,因此基于不变性的方法会失败。
方法:作者认为,学习一个能有效探索领域的策略比学习一个针对特定任务最大化奖励的策略更难记住,因此预期这种学习到的行为可以很好地泛化;并在几个对基于不变性的方法来说困难的领域进行了实证。作者的“探索以泛化”算法(ExpGen)建立在这个想法之上:训练一个额外的奖励优化的代理机群。在测试时,要么机群对一个动作达成一致,我们泛化得很好;要么我们采取探索性的动作,这些动作泛化得很好并推动我们到达状态空间的一个新部分,在那里机群可能会再次达成一致。
效果:该方法在迄今为止难以有效泛化的ProcGen挑战任务上取得了最先进的成果,在迷宫任务上的成功率为83%,在200级训练水平的劫案任务上的成功率为74%。ExpGen还可以与基于不变性的方法结合使用,以获得两者的最佳效果,从而在ProcGen上设置了新的最先进的结果。
Hierarchical Multi-Agent Skill Discovery
Mingyu Yang Yaodong Yang Zhenbo Lu Wengang Zhou Houqiang Li
研究问题:如何将无监督的技能学习有效地应用于多智能体强化学习(MARL)。
动机:目前的无监督技能学习在多智能体强化学习中应用受限,主要挑战在于如何学习和协调个体和团队的技能。
方法:提出分层多智能体技能发现(HMASD)算法,通过高层策略进行技能分配,低层策略学习发现有价值的团队和个人技能。
效果:在稀疏奖励的多智能体基准测试中,HMASD相比强MARL基线取得了显著的性能提升。
Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage
Jose Blanchet Miao Lu Tong Zhang Han Zhong
研究问题:本文旨在研究分布健壮的离线强化学习,以从离线数据集中寻找最优的健壮策略。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:提出了一种名为Doubly Pessimistic Model-based Policy Optimization($\texttt{P}^2\texttt{MPO}$)的通用算法框架,结合了灵活的模型估计子程序和双重悲观策略优化步骤。
效果:实验结果表明,当对模型估计子程序做出某些精度假设时,$texttt{P}^2\texttt{MPO}$在具有健壮部分覆盖数据的离线数据集上是样本高效的,即离线数据集对由最优健壮策略和扰动模型围绕标称模型产生的分布具有良好的覆盖。
Adaptive Online Replanning with Diffusion Models
Siyuan Zhou Yilun Du Shun Zhang Mengdi Xu Yikang Shen Wei Xiao Dit-Yan Yeung Chuang Gan
研究问题:如何有效地使用扩散模型进行重规划。
动机:直接执行计划而不进行重规划会导致行动错误累积和环境变化,而每个时间步都进行重规划会消耗大量计算资源并可能阻止任务成功执行。
方法:提出了一种基于扩散模型估计现有生成计划可能性的原则性重规划方法,以及一种确保新计划与原始轨迹具有相同目标状态的重规划现有轨迹的方法。
效果:这些提议的组合显著提高了扩散规划器的性能,在Maze2D上比过去的扩散规划方法提高了38%,并能处理随机和长期机器人控制任务。
A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes
Han Zhong Tong Zhang
研究问题:尽管乐观的PPO算法在强化学习领域非常成功,但其理论理解仍然不足,特别是在解决线性马可夫决策过程(MDPs)方面。
动机:为了填补这一空白,我们提出了一种用于具有完全信息反馈的回合式对抗性线性MDPs的乐观PPO变体,并为其建立了一个状态-of-the-art的遗憾界限。
方法:我们设计了一种新的多批量更新机制,并在理论上使用了值和策略类的新覆盖数论点。
效果:与现有的基于策略的算法相比,无论是在随机线性MDPs还是在具有完全信息的对抗性线性MDPs中,我们的算法都实现了最先进的遗憾界限。
Multi-Agent First Order Constrained Optimization in Policy Space
Youpeng Zhao Yaodong Yang Zhenbo Lu Wengang Zhou Houqiang Li
研究问题:在多智能体强化学习(MARL)中,如何实现高性能并避免不安全行为是一个重要问题。
动机:对于实际应用来说,避免不安全行为的能力变得紧迫且必要,但在MARL中开发一种安全意识的方法仍然具有挑战性。
方法:本文提出了一种名为“多智能体一阶约束优化策略空间”(MAFOCOPS)的新方法,有效地解决了实现满意性能和执行安全约束的双重目标。该方法首先使用当前策略生成的数据,通过在非参数化策略空间中解决约束优化问题来找到最优更新策略。然后,将更新策略投影回参数化策略空间以实现可行的策略。值得注意的是,我们的方法本质上是一阶的,易于实施,并在最坏情况下的约束违反上表现出近似上限。
效果:实验结果表明,我们的方法在多个安全的MARL基准测试上实现了显著的性能,同时满足安全约束。
Two Heads are Better Than One: A Simple Exploration Framework for Efficient Multi-Agent Reinforcement Learning
Jiahui Li Kun Kuang Baoxiang Wang Xingchen Li Fei Wu Jun Xiao Long Chen
研究问题:在强化学习中,特别是在稀疏奖励任务中,探索策略起着重要作用。在多智能体强化学习(MARL)中,由于状态空间大且智能体之间的交互复杂,设计合适的探索策略更具挑战性。
动机:目前主流的MARL探索方法要么致力于探索庞大而稀疏的未知状态,要么通过高计算成本来测量智能体之间的交互。我们发现不同的探索策略在不同的MARL场景中起着不同的作用,选择合适的策略通常比精心设计算法更有效。
方法:我们提出了一种结合基于好奇心和基于影响力的探索方法(COIN)。首先,COIN根据互信息理论衡量每个智能体对其他智能体的影响,并将其设计为应用于每个独立值函数的内在奖励。其次,COIN通过预测误差计算基于好奇心的内在奖励,并将其添加到外在奖励中。为了整合这两种内在奖励,COIN利用了一个新颖的框架,使它们相互补充,并在合作式MARL任务上产生足够有效的探索。
效果:我们在各种具有挑战性的基准测试上进行了广泛的实验,结果表明我们的方法在不同场景中都具有优越性。
Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep Ensemble Agents
Woojun Kim Yongjae Shin Jongeui Park Youngchul Sung
研究问题:深度强化学习(RL)通过与深度神经网络(DNN)结合作为函数近似器,在解决复杂任务上取得了显著的成功。然而,这种对DNN的依赖引入了一种新的挑战,即先验偏见,这些函数近似器倾向于优先考虑早期的经验,导致过拟合。
动机:为了减轻这种偏见,已经提出了一种重置方法,该方法涉及周期性地重置深度RL代理的一部分或全部,同时保留重播缓冲区。然而,这种方法的使用可能会导致执行重置后的性能崩溃,从安全RL和遗憾最小化的角度来看,这引起了关注。
方法:在这篇论文中,我们提出了一种基于重置的新型方法,利用深度集成学习来解决原生重置方法的限制并提高样本效率。
效果:通过各种实验,包括在安全RL领域的实验,验证了所提出方法的有效性。数值结果表明,它有潜力应用于需要高样本效率和安全考虑的现实应用。
Distributional Pareto-Optimal Multi-Objective Reinforcement Learning
Xin-Qiang Cai Pushi Zhang Li Zhao Jiang Bian Masashi Sugiyama Ashley Juan Llorens
研究问题:现有的多目标强化学习算法无法考虑返回值的分布偏好,这对于自动驾驶等真实世界场景尤为重要。
动机:为了解决这个问题,我们将多目标强化学习中的帕累托最优性概念扩展到分布帕累托最优性,以捕捉返回值分布的最优性,而不仅仅是期望值。
方法:我们提出了一种名为分布帕累托最优多目标强化学习(DPMORL)的方法,该方法能够学习平衡多个目标同时考虑返回不确定性的分布帕累托最优策略。
效果:我们在几个基准问题上评估了我们的方法,并与现有的多目标强化学习方法相比,证明了它在发现分布帕累托最优策略和满足多样化分布偏好方面的有效性。
Efficient Diffusion Policies For Offline Reinforcement Learning
Bingyi Kang Xiao Ma Chao Du Tianyu Pang Shuicheng YAN
研究问题:本文旨在解决现有离线强化学习(RL)中政策参数化的关键但常被忽视的问题,以及Diffusion-QL的两个主要限制:1)训练过程中整个马尔科夫链的前后向运行计算效率低下;2)与最大似然基于RL算法(如策略梯度方法)不兼容。
动机:Diffusion-QL通过使用扩散模型来表示政策,显著提高了离线RL的性能,但其依赖于一个需要数百步采样的参数化马尔科夫链,且在训练过程中需要运行整个马尔科夫链,这导致其计算效率低下,并且与最大似然基于RL算法不兼容。
方法:为了克服这些问题,我们提出了高效的扩散政策(EDP)。EDP在训练过程中通过近似从被破坏的动作构造动作,避免运行整个采样链。我们在D4RL基准上进行了广泛的实验。
效果:实验结果显示,EDP可以将扩散政策的训练时间从5天减少到5小时,并且在gym-locomotion任务上取得了显著的效果。此外,我们还证明EDP与各种离线RL算法(TD3、CRR和IQL)兼容,并在D4RL上以大幅度超过先前方法的成绩达到了新的最先进水平。
Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents
Wonje Choi Woo Kyung Kim SeungHyun Kim Honguk Woo
研究问题:如何让实体强化学习代理快速适应未见过的环境视觉观察,实现零样本适应能力。
动机:在实体强化学习中,实现对未见过环境的快速适应是一个挑战性的问题。
方法:提出一种新颖的对比提示集成(ConPE)框架,利用预训练的视觉语言模型和一组视觉提示,使代理能够有效地学习和适应各种环境和物理变化。
效果:实验表明,ConPE在多个实体代理任务上优于其他最先进的算法,包括AI2THOR中的导航、Metaworld中的操作和CARLA中的自动驾驶,同时也提高了策略学习和适应的样本效率。
Taylor TD-learning
Michele Garibbo Maxime Robeyns Laurence Aitchison
研究问题:许多强化学习方法依赖于TD学习来学习一个评论家,但TD学习的更新可能是高方差的。
动机:本文提出了一种基于模型的强化学习框架——Taylor TD,用于在连续状态-动作设置中降低这种方差。
方法:Taylor TD使用TD更新的一阶泰勒级数展开。这种展开允许Taylor TD在行动选择和每次TD更新的初始状态和动作的状态分布中的一些随机性上进行解析积分。
效果:理论和实证证据表明,Taylor TD的更新确实比标准的TD更新具有更低的方差。此外,在合理的假设下,我们展示了Taylor TD与线性函数近似的标准TD学习具有相同的稳定学习保证。接下来,我们将Taylor TD与TD3算法结合,形成了TaTD3。我们在一系列标准基准任务上展示了TaTD3的表现与几种最先进的无模型和基于模型的基线算法相当,甚至更好。
Necessary and Sufficient Conditions for Optimal Decision Trees using Dynamic Programming
Jacobus G.M. van der Linden Mathijs de Weerdt Emir Demirović
研究问题:如何优化决策树以提高准确性、缩小尺寸并提高人类可理解性。
动机:全局优化决策树在准确性、大小和人类可理解性方面具有潜力,但许多方法依赖于通用求解器,其可扩展性存在问题。
方法:我们探索了子树的优化可以独立进行时,动态规划方法能够更好地利用树结构的关系。我们详细探讨了这种关系,并提出了优化任何可分离目标和约束条件的框架。
效果:我们在五个应用领域进行了实验,展示了该框架的普遍适用性,同时以较大的优势超过了通用求解器的可扩展性。
Efficient Subgame Refinement for Extensive-form Games
Zhenxing Ge Zheng Xu Tianyu Ding Wenbin Li Yang Gao
研究问题:本文旨在解决大型不完美信息游戏中的子游戏求解问题,由于许多真实世界的游戏性质复杂且规模庞大,直接应用现有的子游戏求解技术可能较为困难。
动机:为了克服这个问题,最近的子游戏求解方法允许在有限的知识顺序子游戏中进行子游戏求解,增加了它们在大游戏中的适用性;然而,由于信息集的大小过大,这仍然可能面临障碍。
方法:为此,我们提出了一个生成子游戏求解(GS2)框架,该框架利用生成函数来识别最早达到的节点的子集,从而减小子游戏的规模。我们的方法得到了理论分析的支持,并采用了基于多样性的生成函数来增强安全性。
效果:我们在中等规模的游戏以及具有挑战性的关丹大游戏中进行的实验表明,我们的方法比蓝图有了显著的改进。
Extracting Reward Functions from Diffusion Models
Felipe Pinto Coelho Nuti Tim Franzmeyer Joao F. Henriques
研究问题:如何提取两个扩散模型之间的相对奖励函数,用于优化决策过程。
动机:扩散模型在图像生成和序列决策任务中表现出色,但需要有效的奖励函数进行优化。
方法:通过比较低奖励和高奖励行为的扩散模型,定义并学习相对奖励函数。
效果:该方法在导航环境和图像生成任务中均取得了显著的改进,证明了其泛化能力。
DIFFER:Decomposing Individual Reward for Fair Experience Replay in Multi-Agent Reinforcement Learning
Xunhan Hu Jian Zhao Wengang Zhou Ruili Feng Houqiang Li
研究问题:多智能体强化学习(MARL)中,如何有效地分解团队奖励为个体奖励,以实现公平的经验回放。
动机:现有的方法在分解团队奖励为个体奖励上存在困难,导致难以区分和利用重要的个体经验。
方法:提出DIFFER框架,通过强制网络梯度的不变性,建立一个偏微分方程来求解个体奖励函数,从而计算出每个经验片段在学习任务中的重要性,指导训练过程。
效果:在多个流行基准测试中验证了理论和方法的有效性,显著提高了学习效率和公平性。
Efficient Potential-based Exploration in Reinforcement Learning using Inverse Dynamic Bisimulation Metric
YIMING WANG Ming Yang Renzhi Dong Binbin Sun Furui Liu Leong Hou U
研究问题:如何有效地将领域知识整合到强化学习中,提高探索效率并减少人为认知偏差。
动机:传统的基于潜力的奖励塑造方法完全依赖于手动设计奖励函数,这大大限制了探索效率并引入了人为的认知偏差。
方法:提出了一种基于状态差异潜力的深度强化学习端到端的潜在探索奖励方法,通过计算状态间的距离来测量相邻状态的新颖性,从而鼓励代理发现新的状态并提供更密集的奖励,而无需人工干预。
效果:在MuJoCo和Arcade Learning Environments上进行的广泛实验验证了该方法与其他竞争方法相比的优越性和可扩展性。
Iteratively Learn Diverse Strategies with State Distance Information
Wei Fu Weihua Du Jingwei Li Sunli Chen Jingzhao Zhang Yi Wu
研究问题:在复杂的强化学习问题中,如何优化奖励并发现尽可能多的策略多样性。
动机:在许多实际应用场景中,策略的多样性至关重要。现有的方法无法准确捕捉策略间的行为差异。
方法:提出了一种结合状态空间距离信息的新多样性度量方法,并比较了两种常见的计算框架——基于种群的训练(PBT)和迭代学习(ITR)。
效果:实验结果表明,新算法SIPO在所有测试环境中都能产生具有策略多样性且易于人类理解的策略,这是现有基线无法发现的。
RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization
Siqi Shen Chennan Ma Chao Li Weiquan Liu Yongquan Fu Songzhu Mei Xinwang Liu Cheng Wang
研究问题:多智能体系统中,由于环境的不确定性、代理的策略变化和部分可观察性,存在显著的风险。在多智能体强化学习(MARL)中,学习协调的、分散的且对风险敏感的策略是一项挑战。
动机:为了在风险敏感的MARL中形成协调需求,我们提出了风险敏感的个体-全局-最大(RIGM)原则,作为个体-全局-最大(IGM)和分布IGM(DIGM)原则的泛化。这个原则要求每个代理的风险敏感动作选择集合应该等同于中央政策的风险敏感动作选择。
方法:我们提出了RiskQ来解决这个问题,它通过将联合回报分布的分位数建模为每个代理回报分布效用的加权分位数混合来对联合回报分布进行建模。RiskQ满足VaR和扭曲风险度量的RIGM原则。
效果:实验表明,RiskQ可以获得良好的性能。RiskQ的源代码可以在https://github.com/xmu-rl-3dv/RiskQ上找到。
Sample-efficient Multi-objective Molecular Optimization with GFlowNets
Yiheng Zhu Jialu Wu Chaowen Hu Jiahuan Yan Chang-Yu Hsieh Tingjun Hou Jian Wu
研究问题:设计具有所需性质的新分子,这是一个在离散化学空间上的黑箱优化问题。
动机:在实际中,由于存在多个冲突的目标和昂贵的评估(如湿实验),候选者的多样性至关重要。现有的计算方法虽然取得了初步的成功,但在目标和搜索空间的多样性方面仍面临挑战。
方法:我们提出了一种多目标贝叶斯优化(MOBO)算法,利用基于超网络的GFlowNets(HN-GFN)作为获取函数优化器,目的是从近似帕累托前沿中采样一组多样化的候选分子图。
效果:实验结果表明,HN-GFN具有足够的能力来泛化不同的偏好。此外,在不同实际MOBO设置中的实验表明,我们的框架在候选质量和样本效率方面显著优于现有方法。
Contrastive Retrospection: honing in on critical steps for rapid learning and generalization in RL
Chen Sun Wannan Yang Thomas Jiralerspong Dane Malenfant Benjamin Alsbury-Nealy Yoshua Bengio Blake Aaron Richards
研究问题:如何更准确地识别和处理强化学习中成功的关键步骤。
动机:传统的强化学习方法在确定关键步骤方面存在困难,因为成功通常取决于时间上相距很远的多个关键步骤。
方法:提出了一种新的强化学习算法——对比回顾(ConSpec),该算法使用离线对比学习来找出这些关键步骤。通过新颖的对比损失函数学习任务中关键步骤的原型,并在当前状态匹配原型时提供内在奖励。
效果:实验证明,ConSpec能快速识别所有的关键步骤,并能在感官特征改变时进行分布外泛化,从而在各种强化学习任务中显著提高学习效果。
Multi-Modal Inverse Constrained Reinforcement Learning from a Mixture of Demonstrations
Guanren Qiao Guiliang Liu Pascal Poupart zhiqiang xu
研究问题:现有的逆约束强化学习算法通常假设演示数据是由单一类型的专家生成的,但实际上,演示往往包含来自尊重不同约束的不同专家代理收集的混合轨迹,这使得用统一的约束函数解释专家行为具有挑战性。
动机:为了解决这个问题,我们提出了一种多模态逆约束强化学习(MMICRL)算法,用于同时估计对应于不同类型的专家的多个约束。
方法:MMICRL构建了一个基于流的密度估计器,该估计器能够从演示中进行无监督的专家识别,从而推断出特定于代理的约束。遵循这些约束,MMICRL使用一种新的多模态约束策略优化目标来模仿专家策略,该目标最小化代理条件的策略熵并最大化无条件的策略熵。为了增强鲁棒性,我们将这个目标融入到对比学习框架中。这种方法使得模仿策略能够捕捉到专家代理之间的行为多样性。
效果:在离散和连续环境中的大量实验表明,MMICRL在约束恢复和控制性能方面优于其他基线方法。
Provably Safe Reinforcement Learning with Step-wise Violation Constraints
Nuoya Xiong Yihan Du Longbo Huang
研究问题:本文研究了一种新的具有逐步违规约束的安全强化学习问题,与现有工作不同之处在于我们关注更严格的逐步违规约束,并且不假设存在安全行动。
动机:我们的研究适用于需要在所有决策步骤中确保安全的严格安全关键应用,例如机器人控制和自动驾驶,这些应用可能并不总是拥有安全行动。
方法:我们提出了一种高效的算法SUCBVI,保证了逐步违规和遗憾的最优性能。我们还进一步研究了一种创新的无奖励安全探索问题,设计了SRF-UCRL算法来找到接近最优的安全策略。
效果:实验结果表明,我们的算法在安全性能上具有优越性,并验证了我们的理论结果的正确性。
Unsupervised Behavior Extraction via Random Intent Priors
Hao Hu Yiqin Yang Jianing Ye Ziqing Mai Chongjie Zhang
研究问题:如何充分利用大量无奖励数据中的人类行为先验知识,提高离线强化学习算法的性能。
动机:尽管无奖励数据丰富,但现有的离线强化学习算法并未能充分利用这些数据。
方法:提出UBER方法,通过从给定的先验分布中采样不同的伪奖励,对不同代理进行赋值,从而提取出多样化的行为集合,并将其作为候选策略来帮助新任务的学习。
效果:实验证明,从随机神经网络生成的奖励足以提取出多样化且有用的行为,部分甚至接近专家级行为。在多个基准测试中,UBER展现出了优于现有基线的学习效果和样本效率,扩大了强化学习在现实世界无奖励数据丰富场景的应用范围。
Mutual Information Regularized Offline Reinforcement Learning
Xiao Ma Bingyi Kang Zhongwen Xu Min Lin Shuicheng YAN
研究问题:离线强化学习中,当查询到分布外的动作时会出现分布偏移,这导致策略改进方向受到外推误差的偏斜。
动机:大多数现有方法通过在策略改进或评估过程中对策略或值进行偏离行为策略的惩罚来解决这个问题。
方法:本文提出了一种新的MISA框架,通过直接约束策略改进的方向,从数据集中的状态和动作之间的互信息角度来解决离线强化学习的问题。MISA构建了由策略和Q值参数化的最大互信息下界。
效果:实验结果表明,优化这个下界等价于最大化离线数据集上一步改进策略的可能性。因此,我们约束策略改进方向位于数据流形内。由此产生的算法同时增强了策略评估和改进,通过添加互信息正则化。MISA是一个通用框架,将保守Q学习(CQL)和行为正则化方法(如TD3+BC)统一起来。我们引入了3种不同的MISA变体,并通过实验证明更紧的互信息下界可以获得更好的离线RL性能。此外,我们的大量实验表明,MISA在D4RL基准测试的各种任务上都显著优于广泛的基线,例如,在gym-locomotion任务上实现了742.9的总分数。
An Efficient End-to-End Training Approach for Zero-Shot Human-AI Coordination
Xue Yan Jiaxian Guo Xingzhou Lou Jun Wang Haifeng Zhang Yali Du
研究问题:开发一种无需依赖人类数据,能与人类协作的智能代理。
动机:现有的两阶段基于种群的方法需要一组相互独立的策略来模拟人类的多样化行为,这种需求严重限制了其计算效率。
方法:提出E3T,一种端到端的训练方法,用于零样本人类-AI协调。E3T采用自我策略和随机策略的混合来构建伙伴策略,使其既有协调能力又具有多样性。这样,自我代理就可以在没有预训练种群的情况下,使用这种混合策略进行端到端训练,从而显著提高训练效率。此外,还提出了一个伙伴建模模块,通过历史信息预测伙伴的行动。有了预测的伙伴行动,自我策略就能调整自己的策略,并在与行为模式不同的人类合作时采取相应的行动。
效果:在Overcooked环境中的实证结果表明,我们的方法在保持与基于种群的基线相当或更好的性能的同时,显著提高了训练效率。
Diversify \& Conquer: Outcome-directed Curriculum RL via Out-of-Distribution Disagreement
Daesol Cho Seungjae Lee H. Jin Kim
研究问题:强化学习中,代理在没有领域知识(如环境特性或外部奖励)的情况下,如何进行无信息搜索。
动机:为了解决这些挑战,本文提出了一种新的课程强化学习方法,称为D2C(Diversify for Disagreement & Conquer)。
方法:D2C通过使目标条件分类器多样化来识别访问过的状态和期望结果状态之间的相似性,并确保分类器对分布外的状态持不同意见,从而量化未探索的区域,并以简单直观的方式设计任意的目标条件内在奖励信号。然后,D2C采用二分匹配来定义一个课程学习目标,产生一系列调整良好的中间目标,使代理能够自动探索和征服未探索的区域。
效果:实验结果表明,D2C在定量和定性方面都优于先前的课程强化学习方法,即使期望结果示例是任意分布的。
Compositional Foundation Models for Hierarchical Planning
Anurag Ajay Seungwook Han Yilun Du Shuang Li Abhi Gupta Tommi S. Jaakkola Joshua B. Tenenbaum Leslie Pack Kaelbling Akash Srivastava Pulkit Agrawal
研究问题:如何通过跨空间和时间尺度的分层推理,在新颖环境中做出有效决策。
动机:为了解决长期目标的问题,需要规划抽象子目标序列,进行视觉推理,并通过视觉运动控制执行行动。
方法:提出组合式基础模型用于分层规划(HiP),该模型利用在语言、视觉和动作数据上分别训练的多个专家基础模型联合解决问题。
效果:通过大型语言模型构建基于环境的视频计划,然后通过逆动力学模型将生成的视频转化为动作,实现有效的分层推理。在三个不同的长期桌面操作任务中展示了该方法的有效性和适应性。
Parameterizing Non-Parametric Meta-Reinforcement Learning Tasks via Subtask Decomposition
Suyoung Lee Myungsik Cho Youngchul Sung
研究问题:如何使元强化学习(meta-RL)方法在面对参数变化的任务时也能进行有效泛化?
动机:现有的元强化学习方法在面对非参数化任务时,往往难以实现良好的泛化效果。
方法:提出一种新的元强化学习方法——子任务分解和虚拟训练(SDVT)。该方法将每个非参数化任务分解为一系列基本子任务,并根据其分解结果对任务进行参数化。通过高斯混合变分自编码器来元学习任务的分解过程,使代理能重用从常见子任务中获得的策略。此外,还提出了一种专为非参数化任务变异性设计的虚拟训练程序,该程序生成假设的子任务组合,从而增强对以前未见过子任务组合的泛化能力。
效果:在Meta-World ML-10和ML-45基准测试中,该方法显著提高了性能,超越了当前最先进的技术。
Recovering from Out-of-sample States via Inverse Dynamics in Offline Reinforcement Learning
Ke Jiang Jia-Yu Yao Xiaoyang Tan
研究问题:本文解决了离线强化学习测试中常见的状态分布偏移问题,即代理在未见过的状态上倾向于采取不可靠的行动。
动机:为了解决这个问题,我们提出了一种鼓励代理遵循所谓的状态恢复原则的方法,即在采取行动时,除了考虑长期回报外,还应立即考虑当前行动的后果,并优先选择能够恢复行为策略的状态分布的行动。
方法:为此,我们学习并使用了一个逆动力学模型来指导新策略的状态恢复行为。理论上,我们证明了该方法有助于将新策略的过渡状态分布与离线数据集中的未见过的状态对齐,而无需显式预测通常在高维和复杂环境中难以预测的过渡状态分布。
效果:通过在通用离线RL基准测试中展示最先进的性能,我们证明了所提出方法的有效性和可行性。
Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local Value Regularization
Xiangsen Wang Haoran Xu Yinan Zheng Xianyuan Zhan
研究问题:如何有效地从离线数据集学习多智能体强化学习策略,同时解决状态-动作空间大和多智能体行为耦合的复杂性问题。
动机:尽管单智能体的离线强化学习已取得一定成功,但多智能体的情况仍然具有挑战性。现有的方法大多仅在个体级别应用离线数据相关正则化,没有充分考虑全局的多智能体系统。
方法:提出了一种新的离线多智能体强化学习算法OMIGA,通过隐式的全局到局部值正则化进行学习。OMIGA将全局级别的值正则化转化为等价的隐式局部值正则化,并同时支持样本内学习,从而优雅地连接了多智能体的价值分解和策略学习与离线正则化。
效果:在离线多智能体MuJoCo和星际争霸II微管理任务上进行的全面实验表明,OMIGA在所有任务中的表现都优于最先进的离线多智能体强化学习方法。
Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration
Dongyoung Kim Jinwoo Shin Pieter Abbeel Younggyo Seo
研究问题:在有任务奖励的监督学习环境中,如何平衡探索和利用,避免探索偏向低价值状态区域的问题。
动机:现有的最大化访问状态分布熵的方法在有任务奖励的环境中效果不佳,因为这种方法会倾向于探索低价值状态区域。
方法:提出一种新的探索技术,即最大化值条件状态熵,该方法分别估计每个状态的条件熵,然后取其平均值最大化。通过仅考虑具有相似值估计的访问过的状态来计算内在奖励,防止低价值状态的分布影响高价值状态周围的探索。
效果:实验证明,这种方法可以显著加速各种强化学习算法在MiniGrid、DeepMind控制套件和Meta-World基准测试中的各种任务。
Breadcrumbs to the Goal: Supervised Goal Selection from Human-in-the-Loop Feedback
Marcel Torne Villasevil Max Balsells I Pamies Zihan Wang Samedh Desai Tao Chen Pulkit Agrawal Abhishek Gupta
研究问题:如何有效地进行强化学习中的探索和奖励指定,特别是在需要人类指导的情况下。
动机:现有的强化学习方法在解决具有探索元素的序列决策任务时,需要精心设计的奖励函数或依赖无差别的新奇性探索奖励。人类监督者可以提供有效的循环指导来引导探索过程,但现有的方法需要持续同步的高质量人类反馈,这既昂贵又难以实现。
方法:我们提出了一种名为“人类引导的探索”(HUGE)的技术,能够利用低质量的、非专家用户的反馈(即反馈不频繁、异步且有噪声)来指导强化学习中的探索,而无需精心指定的奖励。关键思想是将定向探索和策略学习的挑战分开——人类反馈用于指导探索,而自我监督的策略学习用于从收集的数据中独立地学习无偏行为。
效果:我们的研究表明,这种方法可以利用有噪声的、异步的人类反馈来学习没有手工设计的奖励或探索奖励的任务。我们在模拟中展示了HUGE能够学习各种具有挑战性的多阶段机器人导航和操作任务,使用的是来自非专家用户的众包反馈。此外,这种范式可以直接扩展到真实世界的机器人上。
Waypoint Transformer: Reinforcement Learning via Supervised Learning with Intermediate Targets
Anirudhan Badrinath Yannis Flet-Berliac Allen Nie Emma Brunskill
研究问题:尽管离线强化学习通过监督学习(RvS)取得了进展,决策转换器(DT)架构在各种领域也取得了成功,但在一些具有挑战性的基准测试中,DTs的表现不佳。
动机:这种性能不佳的根本原因在于DT无法无缝连接子优化轨迹的片段。
方法:我们提出了一种新颖的方法,通过整合中间目标来增强RvS方法。我们引入了Waypoint Transformer(WT),该架构建立在DT框架之上,并依赖于自动生成的航点。
效果:实验结果表明,与现有的RvS方法相比,WT在最终回报上有了显著提高,其性能与或超过了现有的基于时序差分学习的最先进的方法。此外,在最具挑战性和最复杂的环境和数据配置下,包括AntMaze Large Play/Diverse和Kitchen Mixed/Partial,性能和稳定性的改进最为显著。
Mixed-Initiative Multiagent Apprenticeship Learning for Human Training of Robot Teams
Esmaeil Seraj Jerry Yuyang Xiong Mariah L Schrum Matthew Gombolay
研究问题:将最近在多机器人环境中学习示范(LfD)框架的进展进行扩展,面临着由于部分可观察性导致的环境非平稳性等关键挑战,这对现有方法的适用性造成了损害。
动机:尽管已有研究表明,实现机器人团队中各代理之间的通信可以缓解这些问题,但在现有的多代理学习示范(MA-LfD)框架下创建代理间通信需要人类专家为环境和通信行为都提供示范,这需要在已知的消息空间上制定有效的通信策略。
方法:我们提出了混合倡议多代理学徒学习(MixTURE)。MixTURE使机器人团队能够从人类专家生成的数据中学习完成协作任务的首选策略,同时学习新兴的代理间通信以增强团队协调。MixTURE成功的关键成分是自动学习通信策略,通过最大化互信息的自我纠正模型来合理化底层专家示范,而无需人工生成的数据或辅助奖励函数。
效果:MixTURE在复杂异构领域的各种人类专家生成的数据上都优于相关的基线方法。MixTURE是第一个能直接从真实人类数据中学习多机器人协作策略的MA-LfD框架,减少了约44%的人力工作量,提高了约46%的可用性评分。
Gradient Informed Proximal Policy Optimization
Sanghyun Son Laura Yu Zheng Ryan Sullivan Yi-Ling Qiao Ming Lin
研究问题:如何将可微环境中的分析梯度与PPO算法相结合,以提升强化学习的效果。
动机:当前许多强化学习算法在处理复杂任务时,往往需要大量的试错和调整,而通过引入分析梯度,可以更有效地指导策略优化过程。
方法:提出了一种新的政策学习方法,该方法将来自可微环境的分析梯度与PPO算法结合,通过引入α-policy作为局部优势策略,并自适应地调整α值来管理分析梯度的影响。同时,还提出了评估分析梯度的方差和偏差的度量标准,并在检测到高方差或偏差时减少对分析梯度的依赖。
效果:在函数优化、物理模拟和交通控制等不同场景下,该方法均优于基线算法。
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior
Adam Block Ali Jadbabaie Daniel Pfrommer Max Simchowitz Russ Tedrake
研究问题:本文旨在提出一个理论框架,用于使用生成模型对复杂专家演示的行为克隆进行研究。
动机:现有的行为克隆方法在处理复杂的专家演示时,往往无法生成与专家轨迹匹配的轨迹。
方法:本文提出了一个理论框架,通过调用低级别的控制器来稳定模仿专家演示,并使用强大的生成模型作为模仿学习器。同时,结合数据增强和一种新的算法技巧,即在执行时添加增强噪声,来确保生成的模仿者轨迹与示范者的分布接近。
效果:实验结果表明,该算法能够有效地生成与专家轨迹匹配的轨迹,并在优化传输成本上取得了良好的效果。
Optimal Treatment Allocation for Efficient Policy Evaluation in Sequential Decision Making
Ting Li Chengchun Shi Jianing Wang Fan Zhou Hongtu Zhu
研究问题:本文旨在研究如何通过在线实验获取最大信息,以准确估计治疗效应。
动机:在现代科技公司中,A/B测试对于评估新开发产品相对于标准基线的有效性至关重要。
方法:我们提出了三种优化分配策略,这些策略在动态环境中设计,其中治疗是随时间顺序分配的。这些策略旨在最小化治疗效应估计器的方差,当数据遵循非马尔可夫决策过程或(时变的)马尔可夫决策过程时。
效果:我们在各种环境中进行了大量的实验,以证明所提出的方法的有效性。在理论上,我们证明了提出的治疗分配设计的最优性,并为由此产生的治疗效应估计器建立了均方误差的上界。
Thinker: Learning to Plan and Act
Stephen Chung Ivan Anokhin David Krueger
研究问题:如何让强化学习代理自主地与已学习的世界模型进行交互和利用?
动机:现有的强化学习算法需要手动设计规划算法,且难以解释。
方法:提出Thinker算法,将环境包装在世界模型中,并引入新的与世界模型交互的动作。这些模型交互动作使代理能够通过向世界模型提出替代计划来进行规划,然后选择在环境中执行的最终动作。
效果:在Sokoban游戏和Atari 2600基准测试中,Thinker算法取得了最先进的性能和竞争性的结果。可视化显示,使用Thinker算法训练的代理已经学会了有效地使用世界模型进行规划以选择更好的行动。这是第一个表明强化学习代理可以在复杂环境中学习使用已学习的世界模型进行规划的工作。
Reinforcement Learning with Simple Sequence Priors
Tankred Saanum Noemi Elteto Peter Dayan Marcel Binz Eric Schulz
研究问题:在强化学习中,通常以逐个动作为基础来量化简单性,但这种时间尺度忽略了序列策略中经常出现的重复等时间规律。
动机:因此,我们提出了一种强化学习算法,该算法可以解决具有可压缩动作序列的任务。
方法:我们探索了两种可能的简单动作序列来源:可以通过自回归模型学习的动作序列和可以使用现成的数据压缩算法进行压缩的动作序列。通过将这些偏好提炼为序列先验,我们得到了一种新的信息理论目标,该目标激励代理在学习策略时既要最大化奖励,又要符合这些先验。
效果:实验结果表明,所得到的强化学习算法能够更快地学习,并在DeepMind控制套件的一系列连续控制任务中实现了比最先进的无模型方法更高的回报。这些先验还产生了一个强大的信息规范代理,该代理对噪声观察具有鲁棒性,并能执行开环控制。
Learning Multi-agent Behaviors from Distributed and Streaming Demonstrations
Shicheng Liu Minghui Zhu
研究问题:本文旨在解决通过估计多个互动专家的奖励函数和约束来推断他们行为的问题。
动机:在分布式示范轨迹被一组学习者顺序揭示的情况下,如何准确推断多代理的行为。
方法:将问题形式化为分布式在线双层优化问题,外层问题是估计奖励函数,内层问题是学习约束和相应的策略。提出了一种新的“从分布式和流式演示中进行多代理行为推断”(MA-BIRDS)算法,允许学习者通过间歇性通信在单循环中解决外层和内层问题。
效果:形式化保证分布式学习者在奖励函数、约束和策略上达成共识,平均局部遗憾(在N次在线迭代中)以$O(1/N^{1-eta_1}+1/N^{1-\eta_2}+1/N)$的速度下降,累积约束违反以$O(N^{eta_2}+1)$的亚线性速度增加,其中$\eta_1,\eta_2\in (1/2,1)$。
Mutual-Information Regularized Multi-Agent Policy Iteration
Jiangxing Wang Deheng Ye Zongqing Lu
研究问题:大多数合作多智能体强化学习算法只关注单一的团队构成,无法应对动态团队构成的更现实场景。
动机:为了解决这一问题,我们提出了使用互信息作为增强奖励的方法,防止个体策略过度依赖团队相关信息,并鼓励代理学习在不同团队构成中稳健的策略。
方法:我们首先提出了一种固定边际分布的多智能体策略迭代算法,并证明了其收敛性和最优性。然后,我们采用Blahut–Arimoto算法和假想的团队构成分布进行优化,以近似边际分布作为实际应用。
效果:实验结果表明,我们的方法在复杂合作任务中对动态团队构成表现出强大的零样本泛化能力。
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets
Zhang-Wei Hong Aviral Kumar Sathwik Karnik Abhishek Bhandwaldar Akash Srivastava Joni Pajarinen Romain Laroche Abhishek Gupta Pulkit Agrawal
研究问题:本文旨在解决离线强化学习中存在的分布不匹配问题,即学习到的策略与数据集的状态-动作分布之间的差异。
动机:离线强化学习算法在无需与环境交互的情况下进行决策制定,但存在状态-动作分布的分布不匹配问题,这严重影响了其性能。现有的解决方案是约束策略以与数据集中的状态-动作对对齐,但在主要由低效策略收集的轨迹和少量高效策略收集的轨迹组成的数据集上,这种方法效果不佳。
方法:本文提出了一种优化重要性采样权重的方法,使数据采样类似于从接近最优策略生成的数据分布中采样,从而约束策略只模仿数据集中的优秀部分,而不是所有数据。
效果:在72个不同类型的不平衡数据集上,该方法比现有的最佳离线RL算法的性能提高了多达五倍。
Efficient RL with Impaired Observability: Learning to Act with Delayed and Missing State Observations
Minshuo Chen Yu Bai H. Vincent Poor Mengdi Wang
研究问题:本文旨在探讨在现实世界的强化学习系统中,由于延迟或丢失通道导致的观察能力受损对决策的影响。
动机:在实际的控制系统中,由于网络延迟或信道丢失,智能体无法获取系统的最新状态,这对实时决策造成了困扰。
方法:本文提出了一种理论框架,用于研究在有延迟和丢失观测的情况下进行高效强化学习的方法。
效果:实验结果表明,尽管观察能力的受损给策略制定和规划带来了挑战,但学习仍然可以保持高效,且其遗憾界限与原系统的州-动作大小最优相关。同时,我们还比较了完全可观察情况下的最佳策略性能。
Multi-Step Generalized Policy Improvement by Leveraging Approximate Models
Lucas Nunes Alegre Ana L. C. Bazzan Ann Nowe Bruno Castro da Silva
研究问题:本文旨在通过利用环境的近似模型,提出一种在强化学习中进行零样本转移的有原则的方法。
动机:尽管基于广义策略改进(GPI)和后继特征(SFs)的方法在计算上效率高,但它们是无模型的:它们分析一个解决特定任务的策略库,并确定代理应该采取的行动。当代理除了策略库外,还可以访问环境近似模型时,我们调查了更一般的情况。
方法:我们引入了h-GPI,这是一种多步扩展的GPI,可以在标准的无模型GPI和完全基于模型的规划之间进行插值,作为参数h的函数,调整代理推理的时间。
效果:实验证明,随着h的增加,h-GPI的性能优于GPI,并且h-GPI的性能受代理策略库中的次优策略的影响越来越小。最后,我们引入了新的界限来描述h-GPI可以获得的收益,这是代理策略库和可能学到的模型中的近似误差的函数。这些界限严格地推广了文献中已知的界限。我们在具有挑战性的表格和连续状态问题上评估了h-GPI,并在各种近似误差水平下,它始终优于GPI和最先进的竞争方法。
Finite-Time Analysis of Single-Timescale Actor-Critic
Xuyang Chen Lin Zhao
研究问题:单时间尺度的actor-critic方法在连续状态空间上的有限时间收敛性尚未得到充分理解。
动机:现有的分析方法主要限于i.i.d采样或表格设置,对于在线单时间尺度actor-critic算法在连续状态空间上的应用,其有限时间收敛性尚未得到证明。
方法:我们提出了一种新的框架,通过评估和控制actor与critic之间的误差传播,证明了在线单时间尺度actor-critic方法可以在标准假设下找到具有ε近似稳定性的点,样本复杂度为O(ε^-2),并且在i.i.d采样下可以进一步改进到O(ε^-2)。
效果:我们的新框架为分析其他单时间尺度强化学习算法提供了有希望的方法。
AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction Estimation
Daiki E. Matsunaga Jongmin Lee Jaeseok Yoon Stefanos Leonardos Pieter Abbeel Kee-Eung Kim
研究问题:离线强化学习中,由于学到的策略偏离数据收集策略而产生的分布偏移是一个主要挑战。
动机:在多智能体强化学习(MARL)环境中,这个问题更为严重,因为联合行动空间会随着智能体数量的增加呈指数级增长。
方法:我们提出了一种新的离线MARL算法AlberDICE,该算法通过交替进行个体代理的集中训练和最优响应计算来避免选择不在分布内(OOD)的联合行动。
效果:实验结果表明,AlberDICE在标准MARL基准测试中显著优于基线算法。
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning
Weipu Zhang Gang Wang Jian Sun Yetian Yuan Gao Huang
研究问题:如何通过引入随机噪声来提高基于模型的强化学习算法在复杂未知环境中的表现。
动机:现有的基于模型的强化学习算法在真实环境中的性能受限于世界模型的准确性,而构建一个完全准确的复杂未知环境模型几乎是不可能的。
方法:提出了一种结合了Transformer的强大序列建模和生成能力以及变分自编码器的随机性的高效世界模型架构——Stochastic Transformer-based wORld Model(STORM)。
效果:在Atari 100k基准测试中,STORM实现了人类表现均值的126.7%,并在不使用前瞻搜索技术的情况下创造了新的最优秀记录。此外,在单个NVIDIA GeForce RTX 3090显卡上训练一个具有1.85小时实时交互经验的代理仅需要4.3小时,展示了比先前方法更高的效率。
Conservative Offline Policy Adaptation in Multi-Agent Games
Chengjie Wu Pingzhong Tang Jun Yang Yujing Hu Tangjie Lv Changjie Fan Chongjie Zhang
研究问题:本文旨在研究多智能体游戏中的离线策略适应,以利用目标代理的行为数据来利用其弱点或实现有效合作。
动机:现有的多智能体游戏策略适应研究通常依赖于与目标代理的在线交互进行训练,这在现实世界的场景中可能既昂贵又不实用。受最近离线强化学习进展的启发,本文研究了离线策略适应。
方法:我们提出了一种新的学习目标——保守离线适应,该目标优化了任何数据集一致代理模型的最坏情况性能。我们还提出了一种名为“约束自我博弈”(CSP)的高效算法,该算法将数据集信息纳入正则化策略学习中。
效果:实验结果表明,CSP在各种环境中都优于非保守基线,包括迷宫、捕食者-猎物、MuJoCo和谷歌足球等环境。
CQM: Curriculum Reinforcement Learning with a Quantized World Model
Seungjae Lee Daesol Cho Jonghae Park H. Jin Kim
研究问题:现有的强化学习课程方法在高维空间中生成课程目标时面临挑战,通常依赖于手动指定的目标空间。
动机:为了缓解这个限制并提高课程的可扩展性,我们提出了一种新的课程方法,该方法自动定义包含课程过程关键信息的语义目标空间,并在其中建议课程目标。
方法:我们的方法通过向量量化变分自编码器(VQ-VAE)对连续观测值进行离散化,并通过图恢复离散观测值之间的时间关系。同时,我们的方法建议在自动组成的目标空间中向最终目标收敛的不确定性和时间距离感知的课程目标。
效果:实验结果表明,我们提出的方法允许在只有原始目标示例的未了解环境中进行有效探索。此外,即使在各种目标达成任务中,即使使用以自我为中心的视觉输入,我们的方法也优于最先进的课程强化学习方法,无论是在数据效率还是性能上。
Macro Placement by Wire-Mask-Guided Black-Box Optimization
Yunqi Shi Ke Xue Lei Song Chao Qian
研究问题:大规模集成技术(VLSI)的发展对芯片布局设计中的电子设计自动化(EDA)技术提出了新的挑战。
动机:在芯片布局设计过程中,宏放置是一个重要子问题,旨在最小化半周长线长度(HPWL)并避免重叠。
方法:本文提出了一种新的黑盒优化(BBO)框架(称为WireMask-BBO),用于宏放置,通过使用线掩模引导的贪婪过程进行目标评估。
效果:配备不同的BBO算法,WireMask-BBO在实践中显著优于以前的方法,即通过使用更少的时间实现明显更短的HPWL。此外,它可以将现有的布局视为初始解决方案进行微调,这可以在HPWL上提高50%的改进。WireMask-BBO有可能显着提高芯片布局设计的质量和效率,使其对EDA的研究和实践者具有吸引力,并将促进BBO的应用。
Reward Imputation with Sketching for Contextual Batched Bandits
Xiao Zhang Ninglu Shao Zihua Si Jun Xu Wenhan Wang Hanjing Su Ji-Rong Wen
研究问题:本文旨在解决在部分信息反馈的环境下,如何更有效地利用未执行动作的奖励信息。
动机:现有的部分信息反馈方法往往忽视了未执行动作的奖励,导致反馈信息的利用率不高。
方法:本文提出了一种名为“带估算奖励的策略更新”(SPUIR)的方法,通过使用概略法来估算未被观察的奖励,从而近似完整的信息反馈。
效果:实验结果表明,SPUIR在合成、公共基准和真实世界数据集上都优于最先进的基线方法。
Off-Policy Evaluation for Human Feedback
Qitong Gao Ge Gao Juncheng Dong Vahid Tarokh Min Chi Miroslav Pajic
研究问题:如何准确评估强化学习中的人机反馈信号。
动机:现有的离线策略评估方法无法准确估计稀疏且受多重因素影响的人机反馈信号,导致其难以推广到准确的离线策略评估。
方法:提出一种针对人机反馈的离线策略评估(OPEHF)框架,通过开发一种立即人类奖励(IHR)重建方法,利用在潜在空间中提炼的环境知识进行正则化,以捕捉状态转换和发出人机反馈信号的底层动态。
效果:在两个真实世界实验(自适应体内神经刺激和智能辅导)和一个模拟环境(视觉问答)中测试了该方法,结果表明,与直接应用现有离线策略评估方法相比,该方法能显著提高对人机反馈信号的准确估计。
Goal-conditioned Offline Planning from Curious Exploration
Marco Bagatella Georg Martius
研究问题:如何从无监督探索技术中提取目标条件行为,而无需任何额外的环境交互。
动机:在困难的离线环境中,传统的目标条件强化学习方法在提取值函数和策略方面表现不佳。
方法:通过分析最优目标条件值函数的几何形状,将此问题与学习值中的特定类别估计错误联系起来。为了减少其发生,我们提出了一种基于模型的计划方法,该方法在已学习的价值景观上进行规划,并结合了基于图的值聚合方案。
效果:这种组合可以纠正局部和全局错误,并在各种模拟环境中显著提高了零射击目标性能。
Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning
Mitsuhiko Nakamoto Yuexiang Zhai Anikait Singh Max Sobol Mark Yi Ma Chelsea Finn Aviral Kumar Sergey Levine
研究问题:现有的离线强化学习方法在在线微调阶段表现不佳。
动机:设计一种有效的方法,从离线数据中学习初始策略,并实现快速在线微调。
方法:提出校准Q学习(Cal-QL)方法,通过学习保守的价值函数初始化,同时保证其校准性,即学习到的Q值处于合理的尺度范围内。
效果:Cal-QL在9/11在线微调基准任务上优于现有方法。
Anytime-Competitive Reinforcement Learning with Policy Prior
Jianyi Yang Pengfei Li Tongxin Li Adam Wierman Shaolei Ren
研究问题:本文旨在解决任意时间竞争马尔可夫决策过程(A-CMDP)的问题。
动机:现有的约束马尔可夫决策过程(CMDPs)虽然在优化预期奖励和随机动态的预期成本方面取得了一定的成果,但在特定回合中的实际成本仍然可能过高。因此,A-CMDP的目标是在保证每轮任何回合的成本都受到上界限制的同时优化预期奖励。
方法:我们提出了一种名为“任意时间竞争强化学习”(ACRL)的新算法,该算法可以保证任意时间的成本约束。通过分析遗憾,我们发现该策略会逐渐接近在任意时间竞争约束下可实现的最佳奖励。
效果:在碳智能计算的应用实验中,ACRL在奖励性能和成本约束保证方面均表现出良好的效果。
Budgeting Counterfactual for Offline RL
Yao Liu Pratik Chaudhari Rasool Fakoor
研究问题:离线强化学习中,由于数据有限,可能的行动序列中的反事实推理困境是主要挑战。
动机:如果选择不同的行动路径会怎样?这种状况常常导致外推错误,这些错误会随着问题的复杂性呈指数级累积。因此,必须认识到并非所有的决策步骤对最终结果都同等重要,需要对策略产生的反事实决策数量进行预算以控制外推。
方法:我们提出了一种在训练过程中明确限制分布外动作数量的方法,与现有的在策略或值函数上使用正则化的方法不同。具体来说,我们的方法利用动态规划决定在哪里进行外推,哪里不进行外推,并对与行为策略不同的决策设定上限。
效果:理论上,我们通过$Q$更新规则的固定点解的约束最优性证明了我们的方法。在实证上,我们在广泛使用的D4RL基准测试任务上的表现优于最先进的离线RL方法。
Provably (More) Sample-Efficient Offline RL with Options
Xiaoyan Hu Ho-fung Leung
研究问题:本文旨在解决在线强化学习中,探索环境存在风险的问题,如自动驾驶和医疗。
动机:虽然选项框架在增强学习中的长期规划问题上取得了实证成功,但在在线环境中进行探索存在风险的情况下,这些结果不再适用。
方法:本文提出了一种名为PEssimistic Value Iteration for Learning with Options(PEVIO)的算法,并建立了两种流行的数据收集过程的信息理论下界,一种是收集状态-选项转换,另一种是收集状态-动作转换。
效果:实验结果表明,与仅使用动作的离线强化学习相比,使用选项不仅可以更快地收敛到最优值,而且在精心设计选项或离线数据有限的情况下,可以获得更好的性能。
Belief Projection-Based Reinforcement Learning for Environments with Delayed Feedback
Jangwon Kim Hangyeol Kim Jiwook Kang Jongchan Baek Soohee Han
研究问题:本文旨在解决传统方法在处理具有延迟反馈的环境时,由于状态空间爆炸导致的问题。
动机:传统的处理方法会使用从上次观察到的状态和自上次观察到的状态以来执行的动作构建的增强状态,虽然这种方法可以构造出正确的延迟环境的马尔可夫决策过程,但当延迟时间步数增加时,状态空间会爆炸,导致收敛速度变慢。
方法:本文提出了一种名为基于信念投影的Q学习的算法(BPQL),该算法通过评估输入状态大小等于原始状态空间大小而不是增强状态大小的评论家的价值来解决这个问题。
效果:实验结果表明,BPQL在连续控制任务上显著优于其他算法,无论是在渐近性能还是样本效率方面都表现出色。同时,BPQL还能解决传统方法无法处理的长延迟环境问题。
Maximum State Entropy Exploration using Predecessor and Successor Representations
Arnav Kumar Jain Lucas Lehnert Irina Rish Glen Berseth
研究问题:如何使探索算法更有效地学习探索策略?
动机:目前的探索算法往往只关注当前状态或随机开放回路的探索,缺乏对过去经验的有效利用。
方法:提出一种名为$\eta\psi$-Learning的方法,通过考虑过去的历险经验来制定下一步的探索策略。
效果:实验证明,该方法能有效地进行环境探索,并在有限的样本下最大化状态覆盖。
A Reduction-based Framework for Sequential Decision Making with Delayed Feedback
Yunchang Yang Han Zhong Tianhao Wu Bin Liu Liwei Wang Simon Shaolei Du
研究问题:本研究关注随机延迟反馈在单代理和多代理序列决策中的作用,包括
动机:目前的探索算法往往只关注当前状态或随机开放回路的探索,缺乏对过去经验的有效利用。
方法:提出一种名为$\eta\psi$-Learning的方法,通过考虑过去的历险经验来制定下一步的探索策略。
效果:实验证明,该方法能有效地进行环境探索,并在有限的样本下最大化状态覆盖。
Keep Various Trajectories: Promoting Exploration of Ensemble Policies in Continuous Control
Chao Li Chen GONG Qiang He Xinwen Hou
研究问题:当前,将深度强化学习(DRL)与集成方法结合在解决复杂的序列决策问题上已被证明非常有效。然而,对于现有集成RL方法的实证成功,目前的研究还十分有限。
动机:我们新的分析发现,现有的集成DRL算法的样本效率可能受到子策略多样性不足的限制。
方法:受这些发现启发,我们引入了一种新的集成RL算法,称为“轨迹-觉醒-探索”(TEEN)。TEEN的主要目标是在提高样本多样性的同时,最大化期望回报。
效果:通过大量实验,我们发现TEEN不仅比单独使用子策略提高了集成策略的样本多样性,而且比现有的集成RL算法表现更好。在测试的典型环境中,TEEN的平均性能比基线集成DRL算法高出41%。
GraphMP: Graph Neural Network-based Motion Planning with Efficient Graph Search
Xiao Zang Miao Yin Jinqi Xiao Saman Zonouz Bo Yuan
研究问题:如何利用图神经网络在机器人系统中进行高质量的无碰撞路径规划。
动机:尽管基于学习的路径规划器,特别是图神经网络驱动的,已经显示出良好的规划性能,但其固有机制并不适合图搜索过程,阻碍了其进一步的性能提升。
方法:本文提出了一种名为GraphMP的神经运动规划器,用于低维和高维的规划任务。通过定制模型架构和训练机制设计,GraphMP可以同时执行高效的图模式提取和图搜索处理,从而实现强大的规划性能。
效果:在从2D迷宫到14D双KUKA机械臂的各种环境中进行的实验表明,我们提出的GraphMP在路径质量和规划速度上比最先进的学习和经典规划器有显著的改进,同时保持了竞争的成功率。
Fractal Landscapes in Policy Optimization
Tao Wang Sylvia Lee Herbert Sicun Gao
研究问题:本文旨在解决深度强化学习中,政策梯度方法在连续领域训练失败的问题。
动机:尽管政策梯度在深度强化学习中取得了许多成功,但在实践中,即使在已知解决方案的标准控制问题上,也常常观察到政策梯度训练的失败。
方法:作者提出了一个理解政策梯度方法内在局限性的框架,即在某些类别的马尔可夫决策过程(MDP)中,政策空间的优化景观可能非常不平滑或具有分形结构,以至于根本找不到可以估计的梯度。作者借鉴混沌理论和非光滑分析的技术,分析了政策优化目标的最大李雅普诺夫指数和霍尔德指数。此外,作者还开发了一种实用的方法,可以从样本中估计目标函数的局部平滑性,以确定训练过程是否遇到了分形景观。
效果:实验表明,一些政策优化的失败案例可以通过这种分形景观来解释。
Multi-Agent Meta-Reinforcement Learning: Sharper Convergence Rates with Task Similarity
Weichao Mao Haoran Qiu Chen Wang Hubertus Franke Zbigniew Kalbarczyk Ravi Iyer Tamer Basar
研究问题:本文旨在研究多智能体强化学习(MARL)中元学习在解决多个任务集合上的优势。
动机:现有的MARL主要关注独立解决单个任务,而实际上环境经常在变化,留下许多相关任务需要解决。
方法:通过建立一系列理论结果,研究了元学习在各种基本的MARL设置中的应用,包括学习两人零和马尔科夫博弈和马尔科夫潜在博弈的纳什均衡,以及学习一般和的马尔科夫博弈的粗糙相关均衡。
效果:实验结果表明,与分别学习每个任务相比,元学习在各种游戏理论解决方案上实现了更明显的收敛。同时,开发了多个MARL算法,并提供了初始化相关的收敛保证。这些算法将乐观策略镜像下降与阶段值更新相结合,其改进的收敛保证几乎恢复了最佳已知结果,即使初始状态未知。
On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes
Jia Lin Hau Erick Delage Mohammad Ghavamzadeh Marek Petrik
研究问题:优化马尔可夫决策过程中的静态风险规避目标很困难,因为它们不接受强化学习(RL)算法中常见的标准动态规划方程。
动机:条件风险价值(CVaR)和熵风险价值(EVaR)的风险水平离散化后,通过增加状态空间的动态规划分解在RL社区中越来越受欢迎。然而,我们发现这些流行的分解方法本质上是次优的,无论离散化级别如何。
方法:我们展示了一种针对风险值(VaR)的分解方法,并证明了这种风险度量与CVaR和EVaR的不同。
效果:我们的研究结果具有重要意义,因为风险规避算法用于高风险环境,因此其正确性更为重要。
Goal-Conditioned Predictive Coding for Offline Reinforcement Learning
Zilai Zeng Ce Zhang Shijie Wang Chen Sun
研究问题:序列模型是否具有将轨迹压缩为有用表示以增强政策学习的能力。
动机:尽管强大的序列模型如GPT或BERT常用于编码轨迹,但序列建模在轨迹数据上的效果尚不明确。
方法:采用两阶段框架,首先利用序列模型对轨迹进行编码,然后使用编码后的表现作为输入来学习目标条件策略。
效果:实验结果表明,序列建模可以在挑战性决策任务上产生显著影响。此外,GCPC学习到的目标条件潜在表示能够对未来的轨迹进行编码,从而在所有三个基准测试中实现竞争性能。
For SALE: State-Action Representation Learning for Deep Reinforcement Learning
Scott Fujimoto Wei-Di Chang Edward J. Smith Shixiang Shane Gu Doina Precup David Meger
研究问题:本文旨在解决强化学习中对于低层次状态环境的表示学习问题,如物理控制问题。
动机:在图像任务中,表示学习已被证明是一种有效的工具,但在低层次状态环境中,如物理控制问题,这种学习方法往往被忽视。
方法:本文提出了一种新的方法SALE,用于学习能模型状态和动作之间微妙交互的嵌入,从而有效地从低层次状态中进行表示学习。
效果:通过将SALE和一种适用于强化学习的检查点整合到TD3中,形成了TD7算法,该算法在OpenAI gym基准测试任务上的表现大大超过了现有的连续控制算法。在300k和5M时间步的情况下,TD7的平均性能分别比TD3提高了276.7%和50.7%,并且在在线和离线设置中都能工作。
Inverse Reinforcement Learning with the Average Reward Criterion
Feiyang Wu Jingyang Ke Anqi Wu
研究问题:本文研究了平均奖励准则下的逆强化学习(IRL)问题,目标是在研究问题:本文研究了平均奖励准则下的逆强化学习(IRL)问题,目标是在只有来自经验丰富的代理的状态和动作样本的情况下恢复未知的策略和奖励函数。
动机:现有的IRL方法假设专家在一个已知折扣因子的折扣环境中进行训练,而本文通过提出一个平均奖励框架和有效的学习算法来减轻这一假设。
方法:本文开发了一种新的随机一阶方法来解决平均奖励设置下的IRL问题,这需要解决一个平均奖励马尔可夫决策过程(AMDP)作为子问题。为了解决子问题,我们开发了一种在一般状态和动作空间中的随机策略镜像下降(SPMD)方法,该方法需要$mathcal{O}(1/\varepsilon)$步的梯度计算。配备了SPMD,我们提出了逆策略镜像下降(IPMD)方法来解决平均奖励准则下的IRL问题,其复杂度为$\mathcal{O}(1/\varepsilon^2)$。
效果:通过使用MuJoCo基准测试和其他控制任务的数值实验,我们证实了我们的分析,并发现上述复杂性结果在平均奖励准则下的IRL中是新的。
The Best of Both Worlds in Network Population Games: Reaching Consensus and Convergence to Equilibrium
Shuyue Hu Harold Soh Georgios Piliouras
研究问题:本文旨在同时解决多智能体系统中的共识和均衡两大挑战。
动机:尽管每个挑战都吸引了大量关注,但同时处理这两个挑战的研究相对较少。
方法:在多个交互子种群共存的多智能体系统中,考察共识和均衡概念之间的联系。
效果:研究表明,平滑虚构游戏可以在各种多智能体设置中实现共识和向均衡的收敛,且共识形成过程在多智能体学习中的均衡选择问题上起着关键作用。
Revisiting the Minimalist Approach to Offline Reinforcement Learning
Denis Tarasov Vladislav Kurenkov Alexander Nikulin Sergey Kolesnikov
研究问题:近年来,离线强化学习取得了显著进展,但其设计选择对算法效果的影响尚未得到深入研究。
动机:本研究旨在填补这一空白,通过回顾分析最近的离线RL工作,提出ReBRAC,一种基于TD3+BC方法的最小化算法,集成了这些设计元素。
方法:我们在D4RL和V-D4RL基准测试集上,使用51个具有本体感和视觉状态空间的数据集评估ReBRAC,展示了其在无集成方法中的离线和离线在线设置中的最佳性能。
效果:为了进一步说明这些设计选择的有效性,我们进行了大规模的消融研究和数千次实验的超参数敏感性分析。
Adversarial Model for Offline Reinforcement Learning
Mohak Bhardwaj Tengyang Xie Byron Boots Nan Jiang Ching-An Cheng
研究问题:如何设计一种离线强化学习(RL)框架,以优化参考策略并提高其性能,无论数据覆盖范围如何。
动机:现有的离线RL方法在面对非完全数据覆盖时,往往无法有效地学习和改进参考策略。
方法:提出了一种新的基于模型的离线强化学习框架ARMOR,通过对抗性训练马尔可夫决策过程模型来优化策略,以实现对任意参考策略的最坏情况性能优化。
效果:理论证明ARMOR可以在数据覆盖范围内与最佳策略竞争,同时对超参数选择具有鲁棒性。实验表明,ARMOR可以有效地提升参考策略的性能,并与最新的离线无模型和基于模型的RL算法相媲美。
Supported Value Regularization for Offline Reinforcement Learning
Yixiu Mao Hongchang Zhang Chen Chen Yi Xu Xiangyang Ji
研究问题:离线强化学习中,由于分布外(OOD)动作的存在,会导致外推误差和价值估计过高的问题。
动机:为了解决这个问题,现有的价值正则化方法试图通过降低OOD动作的价值来惩罚学习到的价值函数。然而,这些方法未能在ID和OOD动作之间做出适当的区分,也不能保证策略的最优收敛结果。
方法:我们提出了支持值正则化(SVR)方法,对所有OOD动作的Q值进行惩罚,同时对ID动作保持标准的贝尔曼更新。具体来说,我们利用重要性采样的偏差来计算整个OOD区域的Q值之和,作为策略评估的惩罚。这种设计自动区分了ID和OOD动作的正则化,无需手动区分它们。
效果:在表格MDP中,我们证明了SVR的策略评估算子是一个压缩映射,其固定点输出为ID动作的无偏Q值和OOD动作的低估Q值。此外,使用SVR的策略迭代保证了严格的策略改进,直到收敛到数据集中的最佳支持约束策略。在实验上,我们在一个表格迷宫环境中验证了SVR的理论性质,并在D4RL基准测试的一系列连续控制任务中展示了其最先进的性能。
PID-Inspired Inductive Biases for Deep Reinforcement Learning in Partially Observable Control Tasks
Ian Char Jeff Schneider
研究问题:深度强化学习在训练系统控制时,由于系统状态的不可见性以及训练和测试环境的差异,如何平衡历史观察信息的提取和环境的鲁棒性。
动机:借鉴PID控制器的成功,提出仅通过求和和差分就能累积信息的方法,用于解决深度强化学习中的环境适应性问题。
方法:提出了两种基于PID特征的历史编码器架构,一种直接使用PID特征,另一种则可以应用于任意控制任务。
效果:与先前的方法相比,这两种编码器产生的策略通常更具鲁棒性,并在一系列跟踪任务上实现了更好的性能。此外,这些策略在运动控制任务上也比先前的最佳方法平均提高了1.7倍的性能。
FGPrompt: Fine-grained Goal Prompting for Image-goal Navigation
Xinyu Sun Peihao Chen Jugang Fan Jian Chen Thomas H. Li Mingkui Tan
研究问题:如何让自主系统(如家用机器人)通过图片导航到指定目标位置。
动机:现有的方法在理解并推理目标位置的图片时,可能会错过目标图片中的详细信息,且难以关注观察图片中与目标相关区域。
方法:设计了一种名为Fine-grained Goal Prompting的方法,利用目标图片中精细且高分辨率的特征图作为提示进行条件嵌入,以保留目标图片中的详细信息并引导观察编码器关注与目标相关的区域。
效果:在图像目标导航基准测试中,该方法在3个基准数据集上(即Gibson、MP3D和HM3D)取得了显著的性能提升,特别是在Gibson上,仅使用1/50的模型大小就超过了最先进的成功率8%。
BCDiff: Bidirectional Consistent Diffusion for Instantaneous Trajectory Prediction
Rongqing Li Changsheng Li Dongchun Ren Guangyi Chen Ye Yuan Guoren Wang
研究问题:行人轨迹预测的目标是通过利用历史观察来估计行人的未来路径,这对于确保自动驾驶车辆和导航机器人的安全至关重要。
动机:在许多真实世界的情况下,模型缺乏足够的观察时间,例如当行人突然从盲点出现时,会导致预测不准确甚至安全风险。因此,有必要基于瞬时观察进行轨迹预测,这在以前的研究中很少被研究。
方法:本文提出了一种适用于瞬时轨迹预测的双向一致扩散框架,命名为BCDiff。其核心是设计一个相互指导机制,开发两个耦合的扩散模型,可以双向并一致地逐步生成未观察到的历史轨迹和未来轨迹,以利用它们之间的互补信息。
效果:实验表明,与相关方法相比,我们提出的BCDiff显著提高了瞬时轨迹预测在ETH/UCY和斯坦福无人机数据集上的准确率。
Learning from Visual Observation via Offline Pretrained State-to-Go Transformer
Bohan Zhou Ke Li Jiechuan Jiang Zongqing Lu
研究问题:如何仅通过视觉观察数据恢复策略,这是一个有前景但具有挑战性的问题。
动机:现有的从视觉观察学习(LfVO)方法要么只采用效率低下的在线学习方案,要么需要额外的特定任务信息,如目标状态,使它们不适合开放性任务。
方法:我们提出了一个两阶段框架来从视觉观察中学习。在第一阶段,我们引入并离线预训练状态到目标(STG)转换器来预测和区分演示的潜在转换。随后,在第二阶段,STG转换器为下游强化学习任务提供内在奖励,其中代理仅从内在奖励中学习。
效果:我们在Atari和Minecraft上的实验结果表明,我们提出的方法优于基线,并且在一些任务中甚至达到了与从环境奖励中学习的策略相当的性能。这些结果揭示了利用视频数据解决困难的视觉强化学习任务的潜力,而不是依赖于包含状态、动作和奖励的完整离线数据集。
Describe, Explain, Plan and Select: Interactive Planning with LLMs Enables Open-World Multi-Task Agents
Zihao Wang Shaofei Cai Guanzhou Chen Anji Liu Xiaojian Ma Yitao Liang
研究问题:本文研究了在Minecraft中进行规划的问题,这是一个开放性、大众化但具有挑战性的环境,用于开发多任务实体代理。
动机:我们发现给这样的代理赋予规划能力有两个主要的挑战:1)像Minecraft这样的开放世界中的规划需要精确且多步骤的推理,因为任务具有长期性;2)由于普通的规划器在复杂的计划中排列并行子目标时没有考虑当前代理的可实现性,因此生成的计划可能效率低下。
方法:我们提出了“描述、解释、计划和选择”(DEPS),一种基于大型语言模型(LLMs)的交互式规划方法。我们的方法通过在长期的规划过程中从反馈中获得更好的错误修正,同时通过目标选择器带来接近感,这是一个可学习的模块,根据预计的完成步骤对并行子目标进行排序并相应地改进原始计划。
效果:我们的实验标志着第一个能够稳健地完成70多个Minecraft任务的零射多任务代理的里程碑,总体性能提高了近一倍。进一步的测试揭示了我们的方法在普遍采用的非开放性领域(如ALFWorld和桌面操作)中的普遍有效性。消融研究和探索性研究详细说明了我们的设计如何优于其对应物,并提供了我们在“获取钻石”这一重大挑战中的有希望的进展。
Interpretable and Explainable Logical Policies via Neurally Guided Symbolic Abstraction
Quentin Delfosse Hikaru Shindo Devendra Singh Dhami Kristian Kersting
研究问题:如何使强化学习中的语言模型既能编码和学习策略,又具有可解释性。
动机:虽然神经网络在强化学习中占据主导地位,但其黑箱特性使得理解代理的行为变得困难,特别是在图像级别上。因此,神经符号强化学习旨在创建一开始就可解释的策略。
方法:引入了神经引导的可微分逻辑策略(NUDGE)。NUDGE利用训练好的基于神经网络的代理来指导候选加权逻辑规则的搜索,然后使用可微分逻辑来训练逻辑代理。
效果:实验评估表明,NUDGE代理可以产生可解释且可解释的策略,同时优于纯神经网络,并显示出对不同初始状态和问题规模的环境的良好的灵活性。
CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society
Guohao Li Hasan Abed Al Kader Hammoud Hani Itani Dmitrii Khizbullin Bernard Ghanem
研究问题:如何实现聊天机器人的自主协作。
动机:目前聊天机器人的成功依赖于人类指导,但这种方法既困难又耗时。
方法:提出一种名为角色扮演的新型通信代理框架,通过使用引入提示来引导聊天机器人完成任务,同时保持与人类意图的一致性。
效果:展示了角色扮演如何用于生成对话数据以研究代理的行为和能力,为调查对话语言模型提供了有价值的资源。
Train Hard, Fight Easy: Robust Meta Reinforcement Learning
Ido Greenberg Shie Mannor Gal Chechik Eli Meirom
研究问题:在现实世界的应用中,强化学习面临的主要挑战是环境、任务或客户端之间的差异。
动机:元强化学习(MRL)通过学习适应新任务的元策略来解决这一问题。然而,标准的MRL方法通常在高风险或困难的任务上表现不佳,这限制了系统的可靠性。
方法:我们定义了一个具有可控鲁棒性的稳健MRL目标。我们证明了在我们的提出的MRL框架中,梯度偏差会消失。我们还提出了一种新的Robust Meta RL算法(RoML),通过在整个训练过程中识别和过采样更难的任务来解决数据效率低下的问题。
效果:实验证明,RoML在多个导航和连续控制基准上实现了稳健的回报。
Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies
Hanna Ziesche Leonel Rozo
研究问题:机器人在面对未见过的任务条件或新的任务需求时,如何调整其运动策略以适应特定的目标。
动机:大多数常用的运动策略具有特定的结构,这些结构在优化算法中常常被忽视。我们提出将策略优化视为最优传输问题,以利用概率策略的结构。
方法:我们将基于高斯混合模型(GMMs)的机器人运动策略优化问题形式化为Wasserstein梯度流在GMMs空间上的问题。通过在GMMs之间使用L^2-Wasserstein距离来约束策略更新,从而增强策略优化过程的稳定性。此外,我们还利用Bures-Wasserstein流形的几何结构,通过黎曼优化来优化GMM策略的高斯分布。
效果:我们在常见的机器人设置中评估了我们的方法,包括到达运动、避碰行为和多目标任务。实验结果表明,我们的方法在任务成功率和低方差解决方案方面优于常见的策略优化基线。
Task-aware world model learning with meta weighting via bi-level optimization
Huining Yuan Hongkun Dou Xingyu Jiang Yue Deng
研究问题:如何将世界模型与环境对齐,以适应代理的特定任务,是模型基础强化学习中的关键。
动机:虽然等价模型可能在任务意识上优于最大似然模型,但它们牺牲了大量的语义信息并面临实施问题。为了结合这两种模型的优点,我们提出了一种带有双层优化的任务感知环境建模管道(TEMPO)。
方法:TEMPO是一个双层模型学习框架,通过引入一个元权重网络来对每个训练样本进行加权,从而在最大似然模型之上增加了一个额外的优化级别。上层的元权重器通过最小化提出的任务感知模型损失来学习生成新的样本权重。下层的模型则关注重要样本,同时保持状态表示中的丰富语义信息。
效果:我们在DeepMind控制套件和Atari视频游戏中的各种连续和离散控制任务上评估了TEMPO。实验结果表明,TEMPO在渐进性能、训练稳定性和收敛速度方面都取得了最先进的成果。
Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms
Akifumi Wachi Wataru Hashimoto Xun Shen Kazumune Hashimoto
研究问题:本文旨在解决强化学习中安全探索的问题,提出了一种通用的安全探索(GSE)问题的统一表述。
动机:在许多现实世界的场景中,安全探索对于强化学习的实际使用至关重要。
方法:本文提出了一种名为MASE的元算法来解决GSE问题,该算法结合了无约束的强化学习算法和不确定性量化器,以确保当前回合的安全性,同时对实际安全违规之前的不安全探索进行适当的惩罚,以阻止其在后续回合中发生。
效果:实验结果表明,我们提出的算法在不违反任何安全约束的情况下,比最先进的算法在网格世界和Safety Gym基准测试上取得了更好的性能。
Learning non-Markovian Decision-Making from State-only Sequences
Aoyang Qin Feng Gao Qing Li Song-Chun Zhu Sirui Xie
研究问题:传统的模仿学习需要访问示范者的动作,但在自然设置中这些运动信号通常是不可观察的。此外,在这些设置中的序列决策行为可能偏离标准马尔可夫决策过程(MDP)的假设。
动机:为了解决这些挑战,我们探索了状态仅序列的深度生成模型与非马尔可夫决策过程(nMDP),其中策略是状态转换生成器潜在空间中的能量基先验。
方法:我们开发了最大似然估计来实现基于模型的模仿,这涉及到从先验进行短程蒙特卡洛采样和后验的重要性采样。学习到的模型实现了“决策即推理”:无模型的策略执行等同于先验采样,基于模型的规划是从策略初始化的后验采样。
效果:我们在一个具有非马尔可夫约束的典型路径规划任务中演示了所提出方法的有效性,并表明在MuJoCo套件的挑战性领域中,学习到的模型表现出强大的性能。
Video Prediction Models as Rewards for Reinforcement Learning
Alejandro Escontrela Ademi Adeniji Wilson Yan Ajay Jain Xue Bin Peng Ken Goldberg Youngwoon Lee Danijar Hafner Pieter Abbeel
研究问题:如何为强化学习中的行为指定奖励信号,以使代理学习复杂的行为。
动机:从互联网上广泛可用的未标记视频中提取行为偏好是一种有前景的方法。
方法:我们提出了Video Prediction Rewards(VIPER)算法,该算法利用预训练的视频预测模型作为强化学习中无动作奖励信号。
效果:实验结果表明,VIPER能够在广泛的DMC、Atari和RLBench任务中实现专家级控制,无需程序化的任务奖励。此外,视频预测模型的泛化使我们能够为没有专家数据的分布外环境推导奖励,实现针对桌面操作的跨实体泛化。我们认为这项工作是从一个未标记的视频中进行可扩展的奖励规范的起点,将受益于生成建模的快速发展。
Policy Finetuning in Reinforcement Learning via Design of Experiments using Offline Data
Ruiqi Zhang Andrea Zanette
研究问题:如何在强化学习中利用已有的经验数据集和额外的在线数据来提高策略质量。
动机:虽然已有的经验数据集可以用于改进策略,但收集额外的在线数据也是必要的。然而,频繁切换探索策略会增加工程成本。
方法:本文提出了一种算法,该算法使用离线数据集设计一个单一的非反应性探索策略,并保证其性能。
效果:通过理论分析和实验测量,证明了该算法的有效性,即原始数据集的局部覆盖率和额外收集的数据量越大,最终策略的质量越高。
Learning Dynamic Attribute-factored World Models for Efficient Multi-object Reinforcement Learning
Fan Feng Sara Magliacane
研究问题:在许多强化学习任务中,代理必须学会与不同类型的许多对象进行交互,并推广到未见过的对象组合和数量。
动机:现有的方法没有充分利用对象属性的分解优势,本文提出了动态属性因子化强化学习(DAFT-RL)框架来解决这个问题。
方法:我们利用对象中心表示学习从视觉输入中提取对象,为每个对象的类别学习一个类模板图,描述该类对象的动力学和奖励如何根据其属性进行分解。我们还学习了一个交互模式图,描述了不同类别的对象如何在属性级别相互交互。通过这些图和一个动态交互图,我们可以学习一个策略,然后通过估计交互和潜在参数直接应用于新环境。
效果:我们在三个基准数据集上评估了DAFT-RL,结果显示我们的框架在推广到具有不同属性和潜在参数的未见过的对象以及在先前学习的子任务的组合方面优于最先进的方法。
Automatic Grouping for Efficient Cooperative Multi-Agent Reinforcement Learning
Yifan Zang Jinmin He Kai Li Haobo Fu QIANG FU Junliang Xing Jian Cheng
研究问题:如何有效地进行团队协作以提高团队效率。
动机:现有的方法试图直接学习联合行动值和个体效用之间的复杂关系,而本文提出的方法将分组作为桥梁,模型化小部分代理之间的关系,鼓励他们之间的合作,从而提高整个团队的学习效率。
方法:提出了一种新的群体导向的多智能体强化学习方法(GoMARL),该方法通过自动分组来提高学习效率,无需领域知识。具体来说,我们将联合行动值分解为群体值的组合,引导代理以精细的方式改进其策略。
效果:在星际争霸II微管理任务和谷歌研究足球场景中进行的实验验证了该方法的有效性。广泛的组件研究表明了分组如何工作并提高性能。
Large Language Models can Implement Policy Iteration
Ethan Brooks Logan A Walls Richard Lewis Satinder Singh
研究问题:如何利用大型语言模型实现策略迭代。
动机:现有的基于基础模型的强化学习方法主要依赖于专家演示或任务特定的预训练,或者使用梯度方法进行微调或适配器层的训练,但这些方法都有其缺点。
方法:本文提出了一种利用大型语言模型进行策略迭代的方法,通过与强化学习环境的试错交互来更新提示的内容,从而无需专家演示或梯度就能学习执行RL任务。
效果:实验结果表明,这种方法可以在没有领域先验知识的语言模型(如Codex)上实现策略迭代,且无需专家演示或梯度。
Inverse Preference Learning: Preference-based RL without a Reward Function
Joey Hejna Dorsa Sadigh
研究问题:设计奖励函数困难,且往往难以与人类意图对齐。
动机:偏好强化学习算法通过从人类反馈中学习奖励函数来解决这些问题。
方法:开发了一种新颖的参数高效算法——逆偏好学习(IPL),专门用于从离线偏好数据中学习。
效果:在一系列连续控制和机器人基准测试中,IPL实现了与更复杂的利用基于变压器和非马尔可夫奖励函数的方法相竞争的性能,同时具有更少的算法超参数和学习的神经网络参数。
Latent exploration for Reinforcement Learning
Alberto Silvio Chiappa Alessandro Marin Vargas Ann Huang Alexander Mathis
研究问题:在强化学习中,如何有效地探索和交互环境以学习策略,特别是在高维感官输入到运动输出的映射上。
动机:现有的方法(如SAC、PPO等)通过在执行器上施加独立的高斯噪声进行环境探索,这种方法对于多执行器系统来说可能是次优的。
方法:提出一种新方法Lattice,将时间相关的噪声注入到策略网络的潜伏状态中,可以无缝地与在线和离线算法集成。
效果:在PyBullet移动任务中,Lattice-SAC实现了最先进的结果,并在Humanoid环境中比未结构化的探索获得了18%更高的奖励。在MyoSuite的肌肉骨骼控制环境中,Lattice-PPO在大多数达到和物体操作任务中获得了更高的奖励,同时找到了更节能的策略,能耗降低了20-60%。总的来说,我们证明了在时间和执行器空间中使用结构化的动作噪声对复杂的运动控制任务是有效的。
Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping
Tianhao Wu Mingdong Wu Jiyao Zhang Yunchong Gan Hao Dong
研究问题:如何训练一个策略来控制机械手的手指,以帮助用户抓取物体。
动机:在人类手无法或不适合的情况下,使用拟人机器人手进行辅助的重要性日益凸显。
方法:提出了一种名为“人机协作灵巧抓取”的新任务,通过学习合成成功抓取示例集的梯度,训练了一个名为“抓取梯度场”(GraspGF)的手-物体条件抓取原语和一个基于轨迹历史的条件剩余策略。
效果:实验结果表明,该方法优于基线,显示出对用户意图的理解和实际应用的实用性。
Generalized Weighted Path Consistency for Mastering Atari Games
Dengwei Zhao Shikui Tu Lei Xu
研究问题:如何提高强化学习中神经指导搜索的效率和性能。
动机:目前的神经指导搜索方法需要消耗大量的计算资源才能达到显著的性能,且缺乏理论支持。
方法:提出了一种名为GW-PCZero的新方法,该方法将路径一致性(PC)应用于MCTS,并引入了权重机制以减少由于探索不确定性引起的f值估计的方差。
效果:在Atari 100k基准测试中,GW-PCZero在26个游戏中实现了198%的平均人类性能,高于最先进的EfficientZero的194%,而消耗的资源仅为EfficientZero的25%。
Reduced Policy Optimization for Continuous Control with Hard Constraints
Shutong Ding Jingya Wang Yali Du Ye Shi
研究问题:如何将约束强化学习(RL)有效地应用于连续控制任务,特别是在存在一般硬约束的情况下。
动机:尽管最新的约束强化学习算法为强化学习提供了一定的安全保障,但在具有一般硬约束的连续控制任务中部署这些算法仍然具有挑战性。
方法:受经典约束优化技术广义减少梯度(GRG)算法的启发,提出了一种结合RL和GRG的策略优化(RPO)算法来处理一般的硬约束。RPO根据GRG方法将动作分为基本动作和非基本动作,并通过策略网络输出基本动作。然后,RPO通过使用获得的基本动作解决基于等式约束的方程来计算非基本动作。接下来,RPO通过隐式地对非基本动作相对于基本动作进行微分来更新策略网络。此外,还引入了一种基于减少梯度的动作投影过程,并应用了修改的拉格朗日松弛技术以确保满足不等式约束。
效果:RPO是首次尝试将GRG引入RL以有效处理等式和不等式硬约束的方法。在三个新的基准测试中,RPO在累积奖励和约束违反方面均优于以前的约束强化学习算法。
State Regularized Policy Optimization on Data with Dynamics Shift
Zhenghai Xue Qingpeng Cai Shuchang Liu Dong Zheng Peng Jiang Kun Gai Bo An
研究问题:在许多真实世界的场景中,强化学习算法需要在动态变化的数据上进行训练,即在不同的环境动态下。目前大多数的方法通过训练环境参数的编码器来解决这个问题,将具有不同动态的数据根据其环境参数进行分离,然后训练相应的策略。
动机:然而,这些方法可能因为数据的“特定”使用而效率低下,为一种动态训练的策略无法从在其他不同动态环境中收集的数据中受益。本文发现,在许多结构相似但动态不同的环境中,最优策略的稳定状态分布是相似的。
方法:我们利用这种特性,从具有动态变化的数据中学习稳定状态分布以实现数据的有效重用。这种分布被用于在新环境中训练的策略进行正则化,从而产生了SRPO(状态正则化策略优化)算法。
效果:实验结果表明,SRPO可以使几种基于上下文的算法更加高效地利用数据,并显著提高其总体性能。
Encoding Human Behavior in Information Design through Deep Learning
Guanghui Yu Wei Tang Saumik Narayanan Chien-Ju Ho
研究问题:本文旨在通过深度学习来研究行为信息设计。
动机:在信息设计中,发送者通过策略性地揭示信息来试图说服接收者采取某些行动。我们解决了接收者可能表现出与标准的贝叶斯理性假设不同的行为模式的情况。
方法:我们提出了HAIDNet,这是一个基于神经网络的信息设计优化框架,可以适应人类行为的多种表示形式。通过大量的模拟,我们发现HAIDNet不仅可以恢复接近最优的信息策略,与已知的解析解相比,还可以扩展到为计算挑战性的场景(例如,当有多个接收者)或没有已知解决方案的场景(例如,当接收者的行为不遵循贝叶斯理性假设)设计信息策略。我们还进行了现实世界的人类受试者实验,并证明我们的框架可以从数据中捕捉人类行为,并为现实世界的人类接收者带来更有效的信息策略。
效果:实验结果表明,HAIDNet不仅可以恢复接近最优的信息策略,与已知的解析解相比,还可以扩展到为计算挑战性的场景或没有已知解决方案的场景设计信息策略。在现实世界的人类受试者实验中,我们的框架可以从数据中捕捉人类行为,并为现实世界的人类接收者带来更有效的信息策略。
Dual Self-Awareness Value Decomposition Framework without Individual Global Max for Cooperative MARL
Zhiwei Xu Bin Zhang Dapeng Li Guangchong Zhou Zeren Zhang Guoliang Fan
研究问题:现有的合作多智能体强化学习中的价值分解方法大多遵循个体全局最大(IGM)原则,限制了其问题解决能力。
动机:为了解决这个问题,我们提出了一个双自我意识价值分解框架,完全抛弃了IGM前提。
方法:每个智能体由一个动作选择的自我策略和一个解决信用分配问题的他我值函数组成。通过使用显式搜索过程,值函数分解可以忽略IGM假设。在此基础上,我们还提出了一种新的反自我探索机制,以避免算法陷入局部最优。
效果:作为第一个完全无IGM的价值分解方法,我们的框架在各种合作任务中取得了理想的性能。
Reducing Blackwell and Average Optimality to Discounted MDPs via the Blackwell Discount Factor
Julien Grand-Clément Marek Petrik
研究问题:本文旨在解决马尔可夫决策过程(MDPs)中的平均和黑威尔最优性问题,以及其对应的折扣因子。
动机:当前对MDPs的优化目标包括折扣、平均和黑威尔最优性,但现有计算平均最优策略的方法存在局限,且忽视了最优策略在折扣因子下的病态行为。
方法:本文提出了黑威尔折扣因子,并证明当折扣因子大于该值时,所有折扣最优策略都同时满足平均和黑威尔最优性。同时,我们还推导出了黑威尔折扣因子的一个上界,并基于此给出了从平均和黑威尔最优性到折扣最优性的首次归约算法。
效果:我们的研究为MDPs的分析引入了新的数学工具,并首次实现了计算鲁棒黑威尔最优策略的算法。
Finding Safe Zones of Markov Decision Processes Policies
Lee Cohen Yishay Mansour Michal Moshkovitz
研究问题:如何定义和寻找马尔可夫决策过程中的“安全区”,并找到最优解。
动机:为了提高策略的稳定性,需要将大部分轨迹限制在一个子集内,即“安全区”。
方法:通过联合训练大规模文本语料库和知识图谱来训练ERNIE模型,以捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
A Unified Algorithm Framework for Unsupervised Discovery of Skills based on Determinantal Point Process
Jiayu Chen Vaneet Aggarwal Tian Lan
研究问题:如何在无监督的外部奖励下,在选项框架中学习丰富的技能是强化学习研究的前沿。
动机:现有的工作主要分为两类:通过互信息损失最大化选项多样性(忽略覆盖范围)的变分选项发现和通过增加状态空间的连通性(忽略多样性)来提高选项覆盖范围的拉普拉斯方法。
方法:我们展示了在无监督选项发现中,多样性和覆盖范围确实可以在相同的数学框架下统一。具体来说,我们通过新颖的使用确定点过程(DPP)来明确量化学习的选项的多样性和覆盖范围,并优化这些目标以发现具有优越多样性和覆盖范围的选项。
效果:我们的算法ODPP在Mujoco和Atari创建的挑战任务上进行了广泛的评估。结果表明,我们的算法在多样性驱动和覆盖范围驱动的类别中都优于最先进的基线。
Strategic Apple Tasting
Keegan Harris Chara Podimata Steven Wu
研究问题:在高风险领域中,算法决策通常涉及将决策分配给具有策略性修改其输入到算法的激励的代理。
动机:除了处理激励外,在许多感兴趣的领域(如贷款和招聘),决策者只观察到关于他们在分配正面决策给代理人的回合中的政策的反馈;这种反馈通常被称为苹果品尝(或单方面的)反馈。
方法:我们将此设置形式化为一种具有苹果品尝反馈的在线学习问题,其中委托人对一系列T个代理人做出决定,每个代理人都由可能被策略性修改的上下文表示。我们的目标是实现次线性策略遗憾,即比较委托人的表现与事后最佳固定策略的表现。
效果:我们的主要结果是在学习算法中,当代理人序列是随机选择时,会产生$\tilde{\mathcal{O}}(\sqrt{T})$的策略遗憾。我们还给出了一个能够处理对手选择的代理人的算法,尽管这需要付出$\tilde{mathcal{O}}(T^{(d+1)/(d+2)})$的策略遗憾的代价(其中d是上下文的维度)。我们的算法可以很容易地适应委托人收到贝塔特反馈的情况——这种情况通过考虑有激励的代理人来推广线性上下文贝塔特问题,并通过允许部分反馈来推广策略分类问题。
Understanding and Addressing the Pitfalls of Bisimulation-based Representations in Offline Reinforcement Learning
Hongyu Zang Xin Li Leiji Zhang Yang Liu Baigui Sun Riashat Islam Remi Tachet des Combes Romain Laroche
研究问题:尽管基于同构的方法在强化学习任务中表现出了强大的状态表示能力,但在离线强化学习任务中的有效性却未达到预期。
动机:本研究旨在理解为什么同构方法在在线环境中成功,但在离线任务中却失败。
方法:通过分析发现,数据集中的缺失转换对同构原则尤其有害,导致无效的估计。同时,我们还揭示了奖励缩放对于限制同构测量的规模和它们引发的值误差的关键作用。基于这些发现,我们提出了将期望算子应用于离线强化学习的表示学习,以防止对不完整数据的过拟合。同时,通过引入适当的奖励缩放策略,我们避免了表示空间中的特征塌陷风险。
效果:我们在两个最先进的基于同构的方法MICo和SimSR上实施了这些建议,并在D4RL和Visual D4RL两个基准测试套件上展示了性能提升。
Selectively Sharing Experiences Improves Multi-Agent Reinforcement Learning
Matthias Gerstgrasser Tom Danino Sarah Keren
研究问题:如何有效地在多智能体强化学习中进行经验分享以提高学习效果。
动机:现有的多智能体强化学习方法大多需要中心化的培训,且经验分享的效果并不理想。
方法:提出了一种新的多智能体强化学习方法——选择性多智能体优先经验转发,允许智能体之间只分享少量相关的经验,而无需大量的通信渠道。
效果:实验证明,该方法优于无经验分享的分散式训练和最先进的多智能体强化学习方法,而且只分享少量高度相关经验的效果更好,性能提升稳健,适用于各种超参数和DQN变种。
EDGI: Equivariant Diffusion for Planning with Embodied Agents
Johann Brehmer Joey Bose Pim De Haan Taco Cohen
研究问题:现有的规划和基于模型的强化学习算法往往忽视了丰富的几何结构,导致样本效率低下和泛化能力差。
动机:为了解决这一问题,我们提出了等变扩散生成交互(EDGI)算法,该算法对SE(3)空间对称群、ℤ离散时间平移群和Sₙ物体排列群具有等变性。
方法:EDGI遵循了Janner等人(2022)提出的扩散器框架,将学习和规划世界模型视为条件生成建模问题,并在离线轨迹数据集上训练扩散模型。我们引入了一种新的支持多种表示的SE(3)×ℤ×Sₙ等变扩散模型,并将其集成到规划循环中,通过条件和分类器指导在特定任务中按需柔和地打破对称性。
效果:在物体操作和导航任务上,EDGI比非等变模型具有更高的样本效率和更好的对称群泛化能力。
A Simple Solution for Offline Imitation from Observations and Examples with Possibly Incomplete Trajectories
Kai Yan Alex Schwing Yu-Xiong Wang
研究问题:本文旨在解决在只有特定任务专家状态和与任务无关的非专家状态-动作对可用的情况下,如何通过观察进行离线模仿以解决马尔可夫决策过程(MDPs)的问题。
动机:在现实世界中,任意交互都是昂贵的,专家行动无法获取,因此离线模仿非常有用。尽管现有的“分布校正估计”(DICE)方法最小化了专家和学习者策略之间的状态占用分歧并检索到加权行为克隆的策略,但当从不完整的轨迹中学习时,由于双重域中的非鲁棒优化,其结果不稳定。
方法:为了解决这个问题,本文提出了一种基于观察的轨迹感知模仿学习(TAILO)。TAILO使用未来轨迹的折扣总和作为加权行为克隆的权重。总和的项由一个鉴别器输出进行缩放,该鉴别器的目标是识别专家状态。
效果:实验结果表明,TAILO在多个测试平台上表现良好,特别是在有不完整轨迹或专家行为的片段的任务无关数据上,这在先前的工作中是一个常见的假设。
Offline Imitation Learning with Variational Counterfactual Reasoning
Zexu Sun Bowei He Jinxin Liu Xu Chen Chen Ma Shuai Zhang
研究问题:在许多现实场景中,如机器人操作,离线数据集是从无奖励的次优行为中收集的。由于专家数据的稀缺,代理通常容易陷入简单地记忆糟糕的轨迹,并且对环境的变化非常敏感,缺乏泛化到新环境的能力。
动机:为了自动生成高质量的专家数据并提高代理的泛化能力,我们提出了一个名为OILCA的框架,通过反事实推理进行数据增强。
方法:我们利用可识别的变分自编码器为专家数据生成反事实样本。我们从理论上分析了生成的专家数据的影响和泛化的改进。
效果:实验结果表明,我们的方法在深度思维控制套件基准测试中的分布内性能和因果关系世界基准测试中的分布外泛化方面都大大优于各种基线。
Efficient Symbolic Policy Learning with Differentiable Symbolic Expression
Jiaming Guo Rui Zhang Shaohui Peng Qi Yi Xing Hu Ruizhi Chen Zidong Du Xishan Zhang Ling Li Qi Guo Yunji Chen
研究问题:如何有效地从零开始学习符号化策略,并使其适用于未见过的任务。
动机:深度强化学习的策略复杂性使得理解和部署变得困难,而现有的符号化策略方法通常涉及复杂的训练过程和预训练的神经网络策略,效率低下且限制了符号化策略的应用。
方法:提出了一种名为“高效符号化策略学习”(ESPL)的梯度基础学习方法,该方法以端到端的方式从头开始学习符号化策略。引入了一个符号网络作为搜索空间,并使用路径选择器来找到紧凑的符号化策略。通过这样做,我们将策略表示为可微分的符号表达式,并以离线方式进行训练,进一步提高了效率。此外,与以前的符号化策略不同,由于其复杂性,我们将其扩展到元RL中,以生成未见过的任务的符号化策略。
效果:实验表明,我们的方法生成的符号化策略性能更高,并且在单任务RL中大大提高了数据效率。在元RL中,与神经网络策略相比,提出的符号化策略实现了更高的性能和效率,显示出具有可解释性的潜力。
Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning
Jianzhun Shao Yun Qu Chen Chen Hongchang Zhang Xiangyang Ji
研究问题:本文旨在解决离线多智能体强化学习中的挑战,包括分布偏移和高维度问题,以及由此产生的行动超出分布(OOD)和价值过高估计现象。
动机:由于在离线设置中常见的分布偏移问题和在多智能体设置中常见的高维度问题之间的耦合效应,使得行动超出分布(OOD)和价值过高估计现象变得过于严重。
方法:提出一种名为CounterFactual Conservative Q-Learning (CFCQL)的新颖多智能体离线RL算法进行保守的价值估计。该方法不是将所有的智能体视为一个高维的单一实体,而是以反事实的方式分别对每个智能体进行保守正则化计算,然后线性组合以实现整体的保守价值估计。
效果:实验证明,CFCQL在大多数数据集上的表现优于现有方法,甚至在一些数据集上有显著的优势。
SPRING: Studying Papers and Reasoning to play Games
Yue Wu So Yeon Min Shrimai Prabhumoye Yonatan Bisk Ruslan Salakhutdinov Amos Azaria Tom Mitchell Yuanzhi Li
研究问题:开放世界生存游戏对AI算法提出了重大挑战,因为需要处理多任务、深度探索和目标优先级排序等问题。尽管强化学习在解决这类问题上很受欢迎,但其高样本复杂度限制了其在复杂开放世界游戏中的有效性。
动机:我们提出了一种新的方法SPRING,通过阅读Crafter的原始学术文章并使用学到的知识,通过大型语言模型(LLM)进行推理和玩游戏。
方法:我们的SPRING框架使用有向无环图(DAG),将与游戏相关的问题作为节点,依赖关系作为边。通过遍历DAG并计算每个节点的LLM响应,以拓扑顺序确定环境中应采取的最佳行动,LLM对最终节点的回答直接转化为环境行动。
效果:实验表明,当提示具有一致的思维链时,LLM在完成复杂的高级轨迹方面具有巨大潜力。定量上,SPRING与GPT-4配合在所有最先进的RL基线上表现优秀,且无需任何训练。
Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals
Yue Wu Yewen Fan Paul Pu Liang Amos Azaria Yuanzhi Li Tom Mitchell
研究问题:增强学习(RL)在高样本复杂性问题上的挑战。
动机:人类不仅通过交互或示范,而且通过阅读非结构化文本文档(如说明书)来学习执行任务。这些数据可以告知代理有价值的特征和策略或特定任务的环境动态和奖励结构。
方法:提出Read and Reward框架,该框架从Atari游戏开发者发布的手册中提取相关信息,并提供给标准的A2C RL代理作为辅助奖励,以帮助其学习特定任务的策略。
效果:实验表明,当受到我们的设计的辅助时,各种RL算法在性能和训练速度上都取得了显著的改进。
Information Design in Multi-Agent Reinforcement Learning
Yue Lin Wenhao Li Hongyuan Zha Baoxiang Wang
研究问题:如何通过信息设计影响强化学习(RL)环境中的其他代理,使其行为更有利于主代理。
动机:在现实任务中,其他代理有自己的目标并会对主代理的行为进行适应性反应。为了在这些环境中生存,主代理需要影响其他代理,使他们的行动变得更有帮助且更少有害。
方法:本研究提出了一种信号博弈模型,并开发了信号梯度和扩展服从约束的概念来解决这个问题。
效果:该算法在各种混合动机任务上效率高,为计算经济学提供了进一步的见解。
Social Motion Prediction with Cognitive Hierarchies
Wentao Zhu Jason Qin Yuke Lou Hang Ye Xiaoxuan Ma Hai Ci Yizhou Wang
研究问题:本研究旨在解决社会运动预测问题,即如何预测和规划他人和自己的动作。
动机:人类具有出色的预测他人行动并相应规划自己动作的能力,本研究试图通过解决社会运动预测问题来复制这种能力。
方法:引入新的基准、新的形式化方法和认知启发的框架。提出了一个名为Wusi的3D多人运动数据集,该数据集在团队运动的背景下,具有激烈和策略性的人与人互动和多样的姿态分布。通过从多智能体强化学习的角度重新形式化问题,结合行为克隆和生成对抗模仿学习来提高学习效率和泛化能力。同时,考虑到人类社交行为规划过程的认知方面,开发了一个认知层次框架来预测策略性的人类社交互动。
效果:通过全面的实验验证了所提出的数据集和方法的有效性。
NetHack is Hard to Hack
Ulyana Piterbarg Lerrel Pinto Rob Fergus
研究问题:本文旨在解决神经网络在长时任务和开放环境中表现不佳的问题,特别是在具有多模态观察的NetHack游戏中。
动机:尽管神经网络在许多控制问题上取得了显著的成果,但在长期任务和开放环境中,特别是像NetHack这样的游戏,其性能却不如符号代理。
方法:通过对获胜的符号代理进行深入分析并扩展其代码库,生成了最大的可用演示数据集。利用这个数据集,我们研究了(i)动作层次结构的优势;(ii)神经网络架构的增强;(iii)强化学习与模仿学习的集成。
效果:我们的调查产生了一个最先进的神经网络代理,在离线设置中比之前的完全神经网络策略提高了127%,在在线设置中提高了25%。然而,我们也发现仅仅扩大规模并不足以缩小与最好的符号模型甚至顶级人类玩家之间的性能差距。
Reinforcement Learning with Fast and Forgetful Memory
Steven Morad Ryan Kortvelesy Stephan Liwicki Amanda Prorok
研究问题:如何提高强化学习中的记忆效率和训练速度?
动机:现实世界的任务大多具有部分可观察性,需要使用记忆。然而,现有的记忆模型大多来自有监督学习,与强化学习的训练和效率特性不同。
方法:提出快速遗忘记忆(Fast and Forgetful Memory)模型,这是一种专为强化学习设计的记忆模型。该模型通过计算心理学启发的强结构先验来约束模型搜索空间,可以作为循环神经网络在循环强化学习算法中的替代品。
效果:实验表明,快速遗忘记忆模型在各种循环基准测试和算法上的表现优于循环神经网络,且无需更改任何超参数。此外,其训练速度比循环神经网络快两个数量级,因为其时间和空间复杂度分别为对数和线性。
Active Vision Reinforcement Learning under Limited Visual Observability
Jinghuan Shang Michael S Ryoo
研究问题:本研究探讨了主动视觉强化学习(ActiveVision-RL),即一个具研究问题:本研究探讨了主动视觉强化学习(ActiveVision-RL),即一个具身代理在部分可观察环境中同时学习任务的动作策略和视觉观察的控制策略。
动机:由于动作策略和视觉观察策略的相互影响,主动视觉强化学习面临着协调两个策略的挑战。
方法:我们提出了SUGARL,一种传感器运动理解引导的主动强化学习框架,该框架分别对动作策略和视觉观察策略进行建模,但使用内在传感器运动奖励联合学习它们。这种可学习的奖励由传感器运动奖励模块分配,激励视觉观察策略选择最优的观察以推断其自身的动作,这受到人类传感器运动阶段的启发。
效果:通过一系列实验,我们发现该方法在各种可观察性条件下都有效,并且可以适应现有的强化学习算法。观察到通过我们的方法学习的视觉观察策略表现出有效的主动视觉策略。
Sequential Preference Ranking for Efficient Reinforcement Learning from Human Feedback
Minyoung Hwang Gunmin Lee Hogun Kee Chan Woo Kim Kyungjae Lee Songhwai Oh
研究问题:现有的强化学习人类反馈(RLHF)模型效率低下,因为它们从每个人类反馈中只产生单一的偏好数据。
动机:为了解决这个问题,我们提出了一种新的RLHF框架SeqRank,它使用顺序偏好排名来提高反馈效率。
方法:我们的方法通过迭代地从先前选择的轨迹集K和未选择的轨迹集U-K中选择一个防御者和一个挑战者,以序列方式采样轨迹。我们还提出了两种不同的防御者采样策略的轨迹比较方法:(1) 顺序成对比较,选择最近的轨迹;(2) 根成对比较,选择K中最优选的轨迹。我们构建了一个数据结构,并通过偏好对轨迹进行排序以增加额外的查询。
效果:我们的方法比基线提高了至少39.2%的平均反馈效率,并在反馈效率和数据依赖性之间取得了平衡。在行走任务中,根成对比较将平均奖励提高了29.0%,在操作任务中将成功率提高了25.0%。
Elastic Decision Transformer
Yueh-Hua Wu Xiaolong Wang Masashi Hamaya
研究问题:现有的决策转换器(DT)在从一系列次优轨迹中生成最优或接近最优轨迹的过程中,存在轨迹拼接的问题。
动机:为了解决DT在轨迹拼接问题上的困难,本文提出了弹性决策转换器(EDT)。
方法:EDT通过调整DT中保持的历史长度来促进测试时的动作推理中的轨迹拼接。此外,当之前的轨迹最优时,EDT会保留较长的历史以优化轨迹,而当其次优时,则会保留较短的历史,使其能够与更优的轨迹进行“拼接”。
效果:实验表明,EDT能够弥合基于DT和基于Q学习的方法之间的性能差距。特别是在D4RL行走基准测试和Atari游戏上的多任务环境中,EDT优于基于Q学习的方法。
Accountability in Offline Reinforcement Learning: Explaining Decisions with a Corpus of Examples
Hao Sun Alihan Hüyük Daniel Jarrett Mihaela van der Schaar
研究问题:如何利用离线数据在决策系统中学习控制器,同时保证医疗等责任敏感领域的决策可解释性。
动机:离线数据学习控制器是一个重要的研究领域,但在如医疗等责任敏感领域,决策的可解释性尚未得到充分解决。
方法:本文提出了可解释的离线控制器(AOC),将离线数据集作为决策语料库,并根据定制的示例子集进行可解释的控制。AOC在低数据场景下有效运作,可以扩展到严格的离线模仿设置,并显示出保护和适应性的特点。
效果:我们在模拟和现实世界的医疗场景中评估了AOC的性能,强调了其在保持可解释性的同时处理离线控制任务的高绩效能力。
topic-7
algorithm problem algorithms learning optimal gradient bounds optimization
Improved Algorithms for Stochastic Linear Bandits Using Tail Bounds for Martingale Mixtures
Hamish Flynn David Reeb Melih Kandemir Jan Peters
研究问题:本文旨在解决随机线性带状问题,并提出具有最坏情况遗憾保证的改进算法。
动机:在面对未知奖励函数时,广泛使用的“乐观原则”将随机带状问题转化为置信序列的构建。由此产生的带状算法的性能取决于置信序列的大小,较小的置信集会产生更好的实证性能和更强的遗憾保证。
方法:我们使用一种新的适应性鞅混合的尾部界来构建适合随机带状的置信序列。这些置信序列允许通过凸规划进行有效的动作选择。我们证明了基于我们的置信序列的线性带状算法确保实现竞争性的最坏情况遗憾。
效果:我们的置信序列比竞争对手更紧,无论是在实证上还是在理论上。最后,我们在几个超参数调优任务中展示了我们更紧的置信序列的改善性能。
Ordering-based Conditions for Global Convergence of Policy Gradient Methods
Jincheng Mei Bo Dai Alekh Agarwal Mohammad Ghavamzadeh Csaba Szepesvari Dale Schuurmans
研究问题:本文探讨了在有限臂赌博机中,线性函数近似下的政策梯度(PG
动机:在面对未知奖励函数时,广泛使用的“乐观原则”将随机带状问题转化为置信序列的构建。由此产生的带状算法的性能取决于置信序列的大小,较小的置信集会产生更好的实证性能和更强的遗憾保证。
方法:我们使用一种新的适应性鞅混合的尾部界来构建适合随机带状的置信序列。这些置信序列允许通过凸规划进行有效的动作选择。我们证明了基于我们的置信序列的线性带状算法确保实现竞争性的最坏情况遗憾。
效果:我们的置信序列比竞争对手更紧,无论是在实证上还是在理论上。最后,我们在几个超参数调优任务中展示了我们更紧的置信序列的改善性能。
Tester-Learners for Halfspaces: Universal Algorithms
Aravind Gollakota Adam Klivans Konstantinos Stavropoulos Arsen Vasilyan
研究问题:开发一种通用的二分空间测试器-学习器,能够广泛地应用于结构化分布。
动机:现有的测试器-学习器大多针对特定的目标分布进行优化,缺乏泛化性。
方法:提出一种全新的测试器-学习器,该模型能够在完全多项式时间内运行,并具有以下保证:对于测试器接受的任何标记分布,学习器都能达到误差O(opt) + ε;并且只要边际分布满足泊松不等式,测试器就会接受。
效果:在已知标签噪声为马萨尔特的情况下,该测试器-学习器实现了误差O(opt) + ε,同时无条件接受所有对数凹分布(无需假设KLS)。通过使用平方和(SOS)程序检查未知分布的超压缩性,并利用泊松分布在SOS框架中具有可证明的超压缩性这一事实,我们的测试得以实现。
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Method
Constantine Caramanis Dimitris Fotakis Alkis Kalavasis Vasilis Kontonis Christos Tzamos
研究问题:本文旨在探讨深度神经网络和强化学习方法在解决组合优化问题上的有效性。
动机:深度神经网络和强化学习方法已在处理复杂组合优化问题上显示出巨大潜力,但对其有效性的理论分析尚不充分。
方法:本文提出了一种新的理论框架来分析这些方法的有效性,并探讨了是否存在具有以下特性的生成模型:(i)具有足够的表达能力以生成近似最优解;(ii)参数数量和输入大小均为多项式级别,即具有可追踪性;(iii)其优化景观没有次优稳定点。
效果:本文的主要贡献是对此问题给出了肯定的答案。这一结果适用于包括最大最小割、最大k-约束满足问题、最大权二分图匹配和旅行商问题在内的广泛组合优化问题。此外,作为分析的副产品,本文还介绍了一种全新的梯度下降正则化过程,并提供了理论和实验证据,证明它有助于解决梯度消失问题并跳出不良稳定点。
User-Level Differential Privacy With Few Examples Per User
Badih Ghazi Pritish Kamath Ravi Kumar Pasin Manurangsi Raghu Meka Chiyuan Zhang
研究问题:本文探讨了在用户级别差异隐私(DP)中,当每个用户只有少量示例的“例子稀缺”情况。
动机:以前的工作主要关注在“例子丰富”的情况下实现用户级别的差异隐私,而本研究则针对每个用户只有少量示例的情况。
方法:对于近似差异隐私,提出了一种通用的转换方法,将任何项目级别的差异隐私算法转换为用户级别的差异隐私算法。对于纯差异隐私,展示了如何将指数机制适应到用户级别设置。
效果:实验结果表明,这两种方法不仅恢复了特定问题的已知界限,还为诸如私有PAC学习、假设选择和分布学习等任务提供了新的界限。其中一些任务的界限是最优的。
Optimal Learners for Realizable Regression: PAC Learning and Online Learning
Idan Attias Steve Hanneke Alkis Kalavasis Amin Karbasi Grigoris Velegkas
研究问题:本研究旨在描述在PAC学习和在线学习环境中可实现回归的统计复杂性。
动机:先前的研究已经建立了有限性对于PAC可学习性和标度Natarajan维数的必要性,但对于更完整的特性描述进展甚微。
方法:首先引入了一个最小最大实例优化器用于可实现回归,并提出了一个新的维度,该维度定性和定量地描述了哪些类别的实值预测器是可学习的。然后,我们识别了一个与图维度相关的组合维度,该维度描述了在可实现设置中的ERM可学习性。最后,我们基于一个与DS维度相关的组合维度建立了可学习性的必需条件,并推测这在这个上下文中也可能是充分的。此外,在在线学习的背景下,我们提供了一个描述最小最大实例最优累积损失的维度,并设计了一个可实现回归的最优在线学习器,从而解决了Daskalakis和Golowich在STOC '22上提出的一个开放问题。
效果:实验结果表明,我们的方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
A U-turn on Double Descent: Rethinking Parameter Counting in Statistical Learning
Alicia Curth Alan Jeffares Mihaela van der Schaar
研究问题:本文旨在挑战传统的统计学习理论,即模型复杂度和预测误差之间的U型关系,特别是在参数数量超过样本数量时出现的双下降现象。
动机:尽管深度学习中的过参数化神经网络取得了成功,但最近的研究表明,传统的统计理论可能不完整,需要引入新的理论来解释参数数量超过样本数量时的双下降现象。
方法:本文对经典的统计机器学习方法进行了深入研究,包括线性回归、树形结构和增强学习等。作者们提出了一个有效的参数数量度量,用于衡量这些方法在未见过的例子上使用的参数数量。
效果:通过这种度量,作者们发现,当转换到潜在的多个不同的复杂度轴时,双下降现象就会出现,并且其位置并不固有地与插值阈值p=n相关联。此外,作者们还从非参数统计的角度解释了这种现象,认为这是一种平滑技术。
Online RL in Linearly $q^\pi$-Realizable MDPs Is as Easy as in Linear MDPs If You Learn What to Ignore
Gellért Weisz András György Csaba Szepesvari
研究问题:本文研究了在具有线性$q^\pi$-可实现性的情境中,如何进行在线强化学习。
动机:现有的在线强化学习方法主要针对线性马尔可夫决策过程(MDPs),但当动作值不能被线性函数完全表示时,这些方法可能无法有效工作。因此,作者提出了一种新的学习算法来解决这个问题。
方法:作者提出一种新颖的学习算法,该算法可以同时确定需要跳过的状态,并在隐藏的线性MDP上运行另一个学习算法。这种方法可以在多项式样本复杂度下返回$\epsilon$-最优策略。
效果:实验结果表明,该方法在处理线性$q^pi$-可实现性问题时表现出良好的性能,并且其样本复杂度会随着错误估计的增大而逐渐降低。
Nearly Tight Bounds For Differentially Private Multiway Cut
Mina Dalirrooyfard Slobodan Mitrovic Yuriy Nevmyvaka
研究问题:寻找图中最小s-t割是算法工具的基本问题,广泛应用于图像分割、社区发现、强化学习和数据聚类。
动机:在这个问题中,给定两个节点作为终端,目标是从图中删除最小的边数,使得这两个终端断开连接。我们研究了差分隐私对最小s-t割问题的复杂性,并展示了几乎紧密的上下界,其中我们在运行时间效率方面实现了隐私保护。
方法:我们开发了一个具有差分隐私的多路k-cut算法,其中给定k个节点作为我们希望断开的终端。
效果:作为k的函数,我们获得的隐私保证比将先进的合成定理应用于已知的多路k-cut算法的效率提高了指数级。最后,我们评估了我们的差分隐私最小s-t割算法的近似度,并表明其输出质量与非私有算法几乎匹配。
Smoothing the Landscape Boosts the Signal for SGD: Optimal Sample Complexity for Learning Single Index Models
Alex Damian Eshaan Nichani Rong Ge Jason D. Lee
研究问题:学习一个关于各向同性高斯分布在d维空间中的单一索引模型σ(w*·x)。
动机:先前的研究表明,学习w*的样本复杂度受链接函数σ的信息指数k*控制,这是σ的第一个非零埃尔米特系数的指数。
方法:通过在线随机梯度下降法在平滑损失上进行学习,证明了需要大约n>d^(k*/2)个样本来学习w*。
效果:我们的研究缩小了上界和下界之间的差距,并指出在线随机梯度下降法在平滑损失上的学习可以以n>d^(k*/2)个样本来学习w*。同时,我们还探讨了张量PCA的统计分析以及小批量随机梯度下降对经验损失的隐式正则化效应。
Private Everlasting Prediction
Moni Naor Kobbi Nissim Uri Stemmer Chao Yan
研究问题:本文旨在探索预测作为学习的替代方案,并研究如何保护训练集和查询的隐私。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。同时,我们引入了私有永久预测的概念,以保护训练集和查询的隐私。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。此外,我们的私有永久预测模型可以用于所有具有有限VC维概念类别的预测,包括无限域上的阈值函数,而无需增加样本复杂度。
A Single-Loop Accelerated Extra-Gradient Difference Algorithm with Improved Complexity Bounds for Constrained Minimax Optimization
Yuanyuan Liu Fanhua Shang Weixin An Junhao Liu Hongying Liu Zhouchen Lin
研究问题:本文旨在提出一种新的用于解决约束非凸-非凹(NC-NC)最小最大问题的外梯度差分加速算法。
动机:目前的算法在处理约束的NC-NC问题上,收敛速度慢且需要额外的结构假设。
方法:设计了一个新的外梯度差分步骤以获得重要的拟单调性质,提高了收敛速度,同时引入了动量加速到我们的对偶加速更新步骤中。
效果:实验证明,该算法在找到函数f的ε稳定点时,其复杂度为O(ε^-2),优于现有的O(ε^-4)的最优复杂度界。此外,对于非凸-凹(NC-C)和凸-非凹(C-NC)的特殊情况,该算法也能获得相同的O(ε^-2)复杂度,而现有的最佳复杂度界分别为O(ε^-2.5)和O(ε^-4)。
Random Cuts are Optimal for Explainable k-Medians
Konstantin Makarychev Liren Shan
研究问题:如何优化解释性$k$-medians在$\ell_1$中的竞争比率。
动机:解释性$k$-medians问题由Dasgupta等人于2020年提出,已有的随机化算法竞争比率为$O(\log k \log\log k)$,作者希望通过更深入的分析找到最优的竞争比率。
方法:采用RandomCoordinateCut算法对解释性$k$-medians进行优化。
效果:通过严谨的分析,证明该算法的竞争比率上限为$2ln k+2$,与Dasgupta等人给出的$\Omega(\log k)$下界相匹配。
Information Maximization Perspective of Orthogonal Matching Pursuit with Applications to Explainable AI
Aditya Chattopadhyay Ryan Pilgrim Rene Vidal
研究问题:本文探讨了信息寻求(IP)算法在预测输出时如何通过顺序和贪婪地查询输入来预测输出,以及其计算密集性问题。
动机:由于IP需要估计高维空间中的互信息,因此计算量较大。本文探索了正交匹配追踪(OMP)作为替代IP的贪婪选择查询的方法。
方法:我们建立了IP和OMP之间的基本联系,证明了使用字典原子随机投影作为查询的IP“几乎”可以简化为OMP,区别在于IP按归一化相关增益的顺序选择原子。我们称之为IP-OMP,并通过模拟表明,对于随机高斯字典,IP-OMP与OMP的稀疏码恢复率没有明显差异。
效果:受此联系启发,我们探索了IP-OMP用于生成可解释预测的效用。具体来说,我们提出了一种简单的可解释AI算法,该算法将图像编码为具有可解释概念的文本嵌入的语义有意义的字典原子的稀疏组合。最终预测使用这种稀疏组合的权重进行,这些权重作为解释。从实证上看,我们提出的算法不仅与现有的可解释性方法竞争,而且计算成本更低。
On the Variance, Admissibility, and Stability of Empirical Risk Minimization
Gil Kur Eli Putterman Alexander Rakhlin
研究问题:本文探讨了经验风险最小化(ERM)在最小最大次优率方面的性能,并证明了其偏差是导致次优的主要原因。
动机:为了理解经验风险最小化(ERM)的偏差如何影响其在最小最大次优率上的表现,作者进行了详细的理论分析。
方法:通过概率方法,作者在固定设计和随机设计两种情况下,对ERM的偏差和方差误差项进行了分析,并扩展了Chatterjee的可容许性定理到随机设计环境。
效果:研究发现,ERM的偏差是导致其在最小最大次优率上表现不佳的主要原因。此外,作者还发现,尽管某些函数在$L_2$距离上接近ERM,但它们仍然远离经验损失的几乎最小值点。
Precise asymptotic generalization for multiclass classification with overparameterized linear models
David Xing Wu Anant Sahai
研究问题:本研究针对高维参数线性模型在多元分类问题上的渐近泛化性进行探讨,特别是在具有增长的数据点、特征和类别数量的高斯共变量双层模型下。
动机:现有的预训练语言模型往往忽视了知识图谱中丰富的结构化知识,而知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱联合训练ERNIE模型,充分利用词汇、句法和知识信息,以更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL
Qinghua Liu Gellért Weisz András György Chi Jin Csaba Szepesvari
研究问题:本文旨在解决强化学习中策略优化算法的理论理解有限,以及在在线RL中样本复杂度过高的问题。
动机:尽管策略优化算法在强化学习中起到了重要作用,但对其理论理解仍然有限,且在在线RL中的样本复杂度过高,特别是在需要探索的情况下。
方法:本文提出了一种简单高效的策略优化框架——乐观NPG,用于在线RL。乐观NPG可以看作是经典自然策略梯度算法与乐观策略评估子程序的结合,以鼓励探索。
效果:对于$d$-维线性MDPs,乐观NPG具有计算效率,并能在 $\tilde{\mathcal{O}}(d^2/epsilon^3)$ 个样本内学习到 $\epsilon$-最优策略,这是第一个其样本复杂度具有最优的维度依赖性 $\tilde{\Theta}(d^2)$ 的算法。对于广义函数近似(包括线性MDPs),乐观NPG也是第一个实现学习近优策略的多项式样本复杂度的策略优化算法。
Distribution-Free Statistical Dispersion Control for Societal Applications
Zhun Deng Thomas P Zollo Jake Snell Toniann Pitassi Richard Zemel
研究问题:如何对机器学习模型的性能进行有限样本的统计保证,并控制损失分布的分散程度。
动机:对于高风险应用,理解并控制算法决策对不同群体产生的不平等影响至关重要。
方法:提出一个简单而灵活的框架,可以处理更丰富的统计函数类,通过实验在有毒评论检测、医学影像和电影推荐等任务中验证了这些方法。
效果:该研究为理解并控制算法决策的不平等影响提供了新的视角和方法,并在多个实际任务中取得了良好的效果。
Convex and Non-convex Optimization Under Generalized Smoothness
Haochuan Li Jian Qian Yi Tian Alexander Rakhlin Ali Jadbabaie
研究问题:本文旨在进一步推广非均匀平滑性条件,并开发一种简单但强大的分析技术,以获得更强的凸和非凸优化问题结果。
动机:传统的凸和非凸优化方法分析通常需要梯度的Lipschitz连续性,这限制了对二次函数边界的功能的分析。最近的一些工作放宽了这个要求,通过梯度裁剪和噪声有界假设,证明了在非凸设置中的收敛性。
方法:本文进一步推广了这种非均匀平滑性条件,并开发了一种简单的、强大的分析技术,该技术可以约束轨迹上的梯度,从而为凸和非凸优化问题带来更强的结果。
效果:特别是,我们在这种一般平滑性条件下获得了(随机)梯度下降和Nesterov加速梯度方法在凸和/或非凸设置下的古典收敛率。新的分析方法不需要梯度裁剪,并且在随机设置中允许带有有限方差的重尾噪声。
Convergence of Adam Under Relaxed Assumptions
Haochuan Li Alexander Rakhlin Ali Jadbabaie
研究问题:本文旨在为一类广泛的优化目标提供自适应矩估计(Adam)算法的严格收敛性证明。
动机:尽管Adam算法在训练深度神经网络中非常流行和高效,但其理论性质尚未完全理解,现有的收敛性证明需要不切实际的强大假设,如全局有界的梯度,才能显示出向稳定点的收敛。
方法:本文显示,在更现实的条件下,Adam可以证明以$\mathcal{O}(\epsilon^{-4})$的梯度复杂度收敛到$\epsilon$-稳定点。我们分析的关键是一种新的Adam优化轨迹上的梯度有界性的证明,根据这一广义平滑性假设,局部平滑性(即Hessian范数存在时)被一个次二次函数的梯度范数所约束。此外,我们还提出了一种方差减少版本的Adam,其加速的梯度复杂度为$\mathcal{O}(\epsilon^{-3})$。
效果:实验结果表明,这种改进的Adam算法在各种优化任务上都表现出了优越的性能。
Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach
Yu-Hu Yan Peng Zhao Zhi-Hua Zhou
研究问题:本文提出了一种在线凸优化方法,该方法具有两个不同级别的适应性。
动机:当前的方法对未知的函数类型和曲率是未知的,同时,它可以利用环境的未知性并达到与问题相关的保证。
方法:我们的方法基于一个多层在线集成框架,包括一个精心设计的乐观度来统一不同的函数类型和级联校正以提高算法稳定性。
效果:实验结果表明,我们的方法在强凸、指数凹和凸损失函数上分别获得了$\mathcal{O}(\log V_T)$, $\mathcal{O}(d \log V_T)$和$\hat{\mathcal{O}}(\sqrt{V_T})$的遗憾界,其中$d$是维度,$V_T$表示与问题相关的梯度变化,$hat{\mathcal{O}}(\cdot)$表示省略$\log V_T$因子。这种方法不仅保证了最坏情况的保证,而且在分析中直接暗示了小损失界。此外,当我们将其应用于对抗性/随机凸优化和博弈论问题时,我们的结果增强了现有的通用保证。
Online List Labeling with Predictions
Samuel McCauley Benjamin Moseley Aidin Niaparast Shikha Singh
研究问题:如何将预测结果整合到具有强大理论保证的数据结构中。
动机:尽管已有研究表明学习预测可以用来提高算法的运行时间,但如何将这些预测有效地整合到数据结构中仍待进一步研究。
方法:本文通过在线列表标签问题展示了预测可以被利用。设计了一个新的列表标签数据结构,并对其性能进行了两种模型的界限设定。在最坏情况的学习增强模型中,根据预测的错误给出了保证。
效果:该数据结构提供了强大的保证:对于任何预测错误都是最优的,即使预测完全错误,也能保证已知的最坏情况界限。此外,还考虑了随机误差模型,并根据期望和方差对性能进行了界限设定。最后,通过实证研究证明了理论结果,特别是在实际使用案例中,预测通常由过去到达的元素构建时,该数据结构表现出强大的性能。
Convergence of Alternating Gradient Descent for Matrix Factorization
Rachel Ward Tamara G. Kolda
研究问题:如何通过交替梯度下降法优化非对称矩阵分解目标。
动机:对于任意的非对称矩阵,找到一种快速有效的方法进行低秩分解。
方法:采用固定步长的交替梯度下降法应用于非对称矩阵分解目标,并从随机初始值开始,证明了在一定迭代次数后可以达到误差范围内的最优分解。
效果:实验证明,该方法不仅在理论上有效,而且在实践中显著提高了梯度下降的收敛速度。
Improved Frequency Estimation Algorithms with and without Predictions
Anders Aamand Justin Y. Chen Huy Nguyen Sandeep Silwal Ali Vakilian
研究问题:如何准确估计数据流中元素的出现频率。
动机:现有的估算方法(如CountMin和CountSketch)存在误差,Hsu等人(2019)提出使用机器学习来适应特定的数据分布。
方法:我们提出了一种新的算法,在某些参数设置下,无需任何预测就能在理论上超越Hsu等人的学习型算法。加入重击预测器后,我们的算法错误率更低,超越了现有技术。
效果:实验证明,我们的算法在所有实验中的表现都优于先前的方法。
The Equivalence of Dynamic and Strategic Stability under Regularized Learning in Games
Victor Boone Panayotis Mertikopoulos
研究问题:本文探讨了有限N人游戏中的正则化无后悔学习长期行为。
动机:尽管已知无后悔学习的经验频率会收敛到游戏的粗关联均衡集,但对玩家实际策略如何随时间演变的理解却非常有限。
方法:我们采取更通用的方法,通过关注最具挑战性的集合理性属性之一——封闭性(即任何单方面偏离都会给背离者带来成本),来描述玩家日常游戏轨迹的集合理性。
效果:我们发现战略稳定性和动态稳定性之间存在显著的等价关系,并估计了向此类集合的收敛速率。我们还发现基于熵正则化的方法(如指数权重算法)以几何速率收敛,而基于投影的方法即使在有奖励反馈的情况下也能在有限迭代次数内收敛。
Private estimation algorithms for stochastic block models and mixture models
Hongjie Chen Vincent Cohen-Addad Tommaso d'Orsi Alessandro Epasto Jacob Imola David Steurer Stefan Tiegel
研究问题:设计高效的私有估计算法,在高维环境中,其统计保证几乎与已知的最佳非私有算法相匹配。
动机:提高数据处理的隐私保护,同时保持高效和准确的计算结果。
方法:通过引入新的技术和方法,设计出高效的私有估计算法。
效果:对于随机块模型恢复和学习混合的高斯球体两个问题,提出的算法都取得了较好的效果,其中前者是首个实现弱恢复和精确恢复的高效$(\epsilon, delta)$-差分隐私算法,后者则在最小间隔至少为$ O(k^{1/t}\sqrt{t})$时,能恢复$k$-混合的中心,且在所有选择的$t$下,该算法所需的样本复杂度为$n\geq k^{O(1)}d^{O(t)}$,时间复杂度为$(nd)^{O(t)}$。
Practical Sharpness-Aware Minimization Cannot Converge All the Way to Optima
Dongkuk Si Chulhee Yun
研究问题:设计高效的私有估计算法,在高维环境中,其统计保证几乎与已知的最佳非私有算法相匹配。
动机:提高数据处理的隐私保护,同时保持高效和准确的计算结果。
方法:通过引入新的技术和方法,设计出高效的私有估计算法。
效果:对于随机块模型恢复和学习混合的高斯球体两个问题,提出的算法都取得了较好的效果,其中前者是首个实现弱恢复和精确恢复的高效$(\epsilon, delta)$-差分隐私算法,后者则在最小间隔至少为$ O(k^{1/t}\sqrt{t})$时,能恢复$k$-混合的中心,且在所有选择的$t$下,该算法所需的样本复杂度为$n\geq k^{O(1)}d^{O(t)}$,时间复杂度为$(nd)^{O(t)}$。
Mean-field Langevin dynamics: Time-space discretization, stochastic gradient, and variance reduction
Taiji Suzuki Denny Wu Atsushi Nitanda
研究问题:本文旨在解决均值场朗之万动力学(MFLD)的全局最小值问题,并考虑有限的粒子近似、时间离散化和随机梯度误差。
动机:尽管之前的分析都假设了无限粒子或连续时间极限,但无法处理随机梯度更新的问题。因此,作者提出了一个通用框架来证明MFLD的一致传播混沌现象。
方法:通过建立一个统一的框架,作者证明了MFLD在有限粒子近似、时间离散化和随机梯度误差下的一致传播混沌现象。
效果:作者的框架具有广泛的应用性,为多种学习问题如均值场神经网络和MMD最小化以及不同的梯度估计器(包括SGD和SVRG)建立了定量的收敛速率保证。此外,当专门针对标准的朗之万动力学时,作者还实现了在SGD和SVRG设置下的改进收敛速率。
Generalization in the Face of Adaptivity: A Bayesian Perspective
Moshe Shenfeld Katrina Ligett
研究问题:通过自适应选择的查询反复使用数据样本可能导致过拟合,其中对样本上的查询的经验评估显著偏离其相对于底层数据分布的均值。
动机:简单的噪声添加算法可以防止这个问题,基于差分隐私的分析显示这些算法可以处理渐近最优数量的查询。然而,差分隐私的最坏情况性质需要将这种噪声扩展到查询的范围,即使对于高度集中的查询,或者引入更复杂的算法。
方法:在本文中,我们证明了直接的噪声添加算法已经提供了依赖于方差的保证,这也扩展到了无边界的查询。这种改进源于一种新的特性描述,它阐明了自适应数据分析的核心问题。
效果:我们展示了适应性的危害来自于新查询和基于贝叶斯因子的数据样本响应中编码的信息量度量之间的协方差。然后,我们利用这种特性描述来引入一个新的依赖于数据的稳定性概念,它可以约束这个协方差。
List and Certificate Complexities in Replicable Learning
Peter Dixon A. Pavan Jason Vander Woude N V Vinodchandran
研究问题:本文旨在研究可复制学习算法,即在多次运行中以高概率输出相同标准假设的算法。
动机:目前的强可复制性概念通常无法实现,因此我们考虑了列表可复制性和证书可复制性这两种可行的可复制性概念。
方法:我们设计了一种具有最优列表复杂度的学习算法来估计$d$个硬币的偏差,同时最小化样本复杂度。我们还使用几何分区产生的舍入方案和Sperner/KKM引理来建立我们的上界结果。
效果:实验结果表明,我们的方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Online (Multinomial) Logistic Bandit: Improved Regret and Constant Computation Cost
Yu-Jie Zhang Masashi Sugiyama
研究问题:本文探讨了逻辑Bandit问题,这是一种使用逻辑模型描述行动反馈的广义线性Bandit模型的变体。
动机:尽管大多数现有研究都集中在二元逻辑Bandit问题上,但多值情况(考虑两种以上的可能反馈值)在复杂决策问题(如强化学习)中具有更高的实际相关性和适应性。
方法:我们提供了一个算法,该算法在统计和计算效率方面都具有优势,适用于逻辑Bandit问题。在二元情况下,我们的方法是将每轮计算成本从$\mathcal{O}(log T)$降低到$\mathcal{O}(1)$,同时保持了最优的最小最大保证。在多元情况下,对于$K+1$个可能的反馈值,我们的算法实现了$\tilde{\mathcal{O}}(K\sqrt{T})$的遗憾界限,每轮计算成本为$\mathcal{O}(1)$。
效果:这一结果不仅改进了已知的最佳算法的$\tilde{mathcal{O}}(K\sqrt{\kappa T})$界限(其中大常数$\kappa$随着参数域的直径呈指数增长),而且还降低了前一种方法所需的$\mathcal{O}(T)$计算复杂度。
Improved Convergence in High Probability of Clipped Gradient Methods with Heavy Tailed Noise
Ta Duy Nguyen Thien Hang Nguyen Alina Ene Huy Nguyen
研究问题:本研究探讨了在噪声分布具有重尾(即有界p阶矩,1
动机:现有的方法主要依赖于集中不等式和归纳论证与并集边界来约束所有迭代的迭代,这种方法会导致失败概率增加一个因数T,其中T是迭代次数。
方法:我们提出了一种新的分析方法,基于对选定的上鞅序列生成函数的界限进行约束。我们对剪切梯度的大量算法改进了依赖T的收敛保证,包括用于凸目标的随机(加速)镜像下降和用于非凸目标的随机梯度下降。
效果:我们的高概率界限实现了最优的收敛速度,并与当前已知的最佳期望界限相匹配。我们的方法自然允许算法在时间范围未知时使用时变的步长和剪切参数,这在使用现有技术时似乎困难甚至不可能。此外,我们还表明,在剪切随机镜像下降的情况下,设置步长和剪切参数时不需要几个问题常数,包括初始距离优化。
Error Bounds for Learning with Vector-Valued Random Features
Samuel Lanthaler Nicholas H. Nelsen
研究问题:本文对使用向量值随机特征(RF)的学习进行了全面的错误分析。
动机:尽管现有的研究已经对此进行了一些探讨,但往往依赖于随机矩阵理论的集中结果或其向随机算子的推广,而本文则直接分析了基础风险泛函,避免了明确表述RF岭回归解公式的需要。
方法:在完全一般无限维输入-输出设置中,为RF岭回归发展了理论,同时改进了现有的有限维分析。
效果:本文的主要成果包括在模型误设定下向量值RF估计器的强一致性和在良好设定下的最小最大最优收敛速度。达到这些速度所需的参数复杂度(随机特征的数量)和样本复杂度(标记数据的数量)与蒙特卡洛直觉相符合,且无对数因子。
PAC Learning Linear Thresholds from Label Proportions
Anand Paresh Brahmbhatt Rishi Saket Aravindan Raghuveer
研究问题:本文旨在探索标签比例学习(LLP)的计算可学习性,即在给定随机标签比例的包的情况下,如何有效地学习线性阈值函数(LTF)。
动机:尽管大多数关于LLP的研究都集中在训练模型上,但LLP的计算可学习性直到最近才被探索。Saket (2021, 2022)的工作表明,从标签比例中正确学习LTF是难以处理的。然而,他们并没有排除对于自然分布的有效算法。
方法:本文提出了一种有效的学习LTF的方法,当给定一些标签比例的随机包时,其中特征向量根据其标签从高斯分布N(µ, Σ)中独立采样。我们的工作表明,使用从有放回和无放回采样的包中的特征向量差异的协方差形成的特定矩阵,经过变换后,其主要分量必然在LTF的法线方向上。
效果:通过应用次高斯浓度界限来估计均值和协方差矩阵,并结合包设置中的新颖泛化误差界限,我们展示了可以识别低误差假设LTF。对于N(0, I)分布的一些特殊情况,我们提供了一种基于简单均值估计的算法。实验评估显示,我们的方法比Saket (2021, 2022)的方法和随机LTF更有效。
CLIP-OGD: An Experimental Design for Adaptive Neyman Allocation in Sequential Experiments
Jessica Dai Paula Gradu Christopher Harshaw
研究问题:本研究旨在解决适应性序列设计在因果推断中的应用问题,特别是在癌症疗法的临床开发和党派偏见调查中。
动机:尽管适应性序列设计在因果推断中越来越受欢迎,因为它们可能比非适应性设计提供更高的精度,但在简单设置(如两种治疗)下,适应性设计能提高多少精度的问题尚未得到充分理解。
方法:本研究在设计基础的潜在结果框架中研究了适应性尼曼分配问题,其中实验者试图构建一个几乎与最优(但不切实际)的非适应性尼曼设计一样高效的自适应设计。受在线优化的启发,我们提出了尼曼比率和尼曼遗憾作为这个问题的两种等效的适应性设计性能度量。
效果:我们提出了Clip-OGD,一种自适应设计,它实现了O(T)的预期尼曼遗憾,从而在大样本中恢复了最优的尼曼方差。最后,我们构建了一个保守的方差估计器,有助于发展出渐近有效的置信区间。为了补充我们的理论结果,我们使用一项微观经济实验的数据进行了模拟。
Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption
Yige Hong Qiaomin Xie Yudong Chen Weina Wang
研究问题:本文研究了无限时域的Restless Bandit问题,考虑离散时间和连续时间两种情况。
动机:设计计算效率高的策略,随着手臂数量N的增长,减小最优性差距。
方法:提出了一个通用的基于模拟的框架——Follow-the-Virtual-Advice,将任何单臂策略转化为原始N臂问题的策略。通过在每只手臂上模拟单臂策略,并仔细引导真实状态向模拟状态移动。
效果:在离散时间设置中,我们的结果在一个简单的同步假设下成立,该假设覆盖了一些违反UGAP的问题实例。更值得注意的是,在连续时间设置中,我们不需要任何额外的假设,除了标准的单链条件。在这两种情况下,我们的工作都是第一个不需要UGAP的渐近最优性结果。
Parallel Submodular Function Minimization
Deeparnab Chakrabarty Andrei Graur Haotian Jiang Aaron Sidford
研究问题:本文研究了子模函数最小化(SFM)的并行复杂性。
动机:尽管有一系列关于改进SFM并行下界的研究,但在我们的工作之前,已知的并行SFM算法要么源于更一般的串行SFM方法,要么源于高度并行的凸$\ell_2$-Lipschitz函数最小化方法。
方法:我们提供了两种新的方法,用于获取在$n$个元素子集上定义的、整数值在$-M$和$M$之间的子模函数的两个新的查询与深度权衡。第一种方法的深度为2,查询复杂度为$n^{O(M)}$;第二种方法的深度为$\widetilde{O}(n^{1/3} M^{2/3})$,查询复杂度为$O(\mathrm{poly}(n, M))$。
效果:为了获得我们的第二个结果,我们首次提供了一种高度并行的算法,用于在超立方体上最小化$\ell_\infty$-Lipschitz函数,该算法获得了接近最优的深度以获得恒定的精度。
When Does Optimizing a Proper Loss Yield Calibration?
Jarosław Błasiok Parikshit Gopalan Lunjia Hu Preetum Nakkiran
研究问题:在限制的预测器族中优化适当的损失函数,什么情况下会产生校准模型?它给出了什么样的校准保证?
动机:尽管优化适当的损失函数通常被认为可以得到具有良好校准性质的预测器,但典型的机器学习模型是在一个不太可能包含真实值的限制的预测器族中进行训练。
方法:我们用局部最优性条件取代全局最优性,规定预测器的(适当)损失不能通过后处理其预测结果的某一类Lipschitz函数来大大减少。
效果:我们发现任何满足局部最优性的预测器都满足平滑校准,这可能解释了为什么经过良好的训练深度神经网络(DNNs)可以从适当的损失最小化中产生校准模型。最后,我们还发现局部最优性和校准误差之间的联系是双向的:几乎校准的预测器也几乎是局部最优的。
QuACK: Accelerating Gradient-Based Quantum Optimization with Koopman Operator Learning
Di Luo Jiayu Shen Rumen Dangovski Marin Soljacic
研究问题:量子优化中,随着参数数量的增加,梯度计算的复杂度呈线性增长,这阻碍了其发展。
动机:为了解决这个问题,本文将Koopman算子理论和自然梯度方法引入到量子优化中,以大幅度加速基于梯度的量子优化。
方法:提出了一种新的框架——量子电路交替受控Koopman学习(QuACK),利用交替算法在量子计算机上高效地预测梯度动态。
效果:实验证明,QuACK在量子化学、量子凝聚态、量子机器学习和噪声环境中的各种应用中,都能显著加速基于梯度的优化。在过参数化区域,速度提高了200倍以上;在平滑区域,速度提高了10倍;在非平滑区域,速度提高了3倍。
OKRidge: Scalable Optimal k-Sparse Ridge Regression
Jiachang Liu Sam Rosen Chudi Zhong Cynthia Rudin
研究问题:识别非线性动力系统的稀疏控制方程。
动机:解决稀疏岭回归问题以达到可证明的最优性,确定哪些项驱动基本动态。
方法:提出一种快速算法OKRidge用于稀疏岭回归,使用一种新的下界计算,包括首先进行鞍点公式化,然后(i)解线性系统或(ii)使用基于ADMM的方法,其中可以通过解另一个线性系统和等距回归问题来有效评估邻近算子。还提出了一种利用束搜索的方法来预热求解器。
效果:实验表明,我们的方法达到可证明的最优性,运行时间比现有的由商业求解器Gurobi解决的MIP公式快几个数量级。
Stochastic Multi-armed Bandits: Optimal Trade-off among Optimality, Consistency, and Tail Risk
David Simchi-Levi Zeyu Zheng Feng Zhu
研究问题:本文研究了随机多臂赌博机问题,并全面描述了政策设计中三个期望
动机:解决稀疏岭回归问题以达到可证明的最优性,确定哪些项驱动基本动态。
方法:提出一种快速算法OKRidge用于稀疏岭回归,使用一种新的下界计算,包括首先进行鞍点公式化,然后(i)解线性系统或(ii)使用基于ADMM的方法,其中可以通过解另一个线性系统和等距回归问题来有效评估邻近算子。还提出了一种利用束搜索的方法来预热求解器。
效果:实验表明,我们的方法达到可证明的最优性,运行时间比现有的由商业求解器Gurobi解决的MIP公式快几个数量级。
The Behavior and Convergence of Local Bayesian Optimization
Kaiwen Wu Kyurae Kim Roman Garnett Jacob R. Gardner
研究问题:本文旨在研究贝叶斯优化中局部优化策略的行为和收敛性,以解决高维问题。
动机:尽管局部优化策略在高维问题上具有优秀的实证性能,但其行为和收敛性尚未得到具体了解。
方法:首先研究了局部方法的行为,发现其单个局部解的统计特性优于全局方法的预期恢复。然后,对Müller等人(2021)最近提出的贝叶斯局部优化算法进行了首次严格分析,并推导出了有噪声和无噪声环境下的收敛速度。
效果:实验结果表明,局部优化策略在高维问题上具有优越的性能,且收敛速度快于传统全局策略。
Differentially Private Approximate Near Neighbor Counting in High Dimensions
Alexandr Andoni Piotr Indyk Sepideh Mahabadi Shyam Narayanan
研究问题:如何在差分隐私下进行范围计数,即计算落入给定查询球内的数据点数量。
动机:目前的范围计数算法存在两种类型的问题,一类算法的误差是数据点数量的固定多项式,另一类算法允许对数误差,但误差在维度上呈指数增长。
方法:本文提出了一种有效的算法,该算法在这两种类型之间找到了一个平衡点。算法的误差是一个与数据集大小成任意小幂的加性误差,以及一个小的(1+o(1))乘性误差。关键在于,添加的噪声量与维度无关。
效果:该算法引入了局部敏感哈希的一个变体,并以一种新的方式使用它。
Distributionally Robust Linear Quadratic Control
Bahar Taskesen Dan Andrei Iancu Çağıl Koçyiğit Daniel Kuhn
研究问题:本文旨在解决带有噪声分布不确定性的离散时间有限时域LQG控制问题。
动机:在许多领域中,如工程、计算机科学、经济学和神经科学等,LQG控制是一种基本的控制范式。然而,当噪声分布未知且属于以标称(高斯)分布为中心的Wasserstein模糊集时,如何进行最优控制是一个挑战。
方法:本文提出了一种数值解决方案,该方法使用Frank-Wolfe算法识别Wasserstein模糊集中的最不利分布,并在这些分布下使用卡尔曼滤波器估计来计算控制器的最优策略。
效果:实验结果表明,尽管增加了复杂性,但本文提出的方法仍然能够有效地找到最优控制策略。
Online Control for Meta-optimization
Xinyi Chen Elad Hazan
研究问题:选择最优超参数(如学习率和动量)是一个重要的非凸挑战。
动机:传统的迭代技术如超梯度下降在获取全局最优性保证方面不足,因此我们考虑了更一般的元优化任务——在线学习最佳优化算法。
方法:我们引入了一种基于控制理论的新方法,将元优化公式化为一个最优控制问题,这与现有使用稳定性方法研究优化的文献不同。
效果:我们的方法利用最近提出的非随机控制框架中的凸松弛技术来克服非凸性的挑战,并获得了与最佳离线解决方案相比的遗憾保证。这保证了在元优化中,我们可以学习到一种收敛性能与事后从一类方法中选出的最佳优化方法相当的方法。
The Pick-to-Learn Algorithm: Empowering Compression for Tight Generalization Bounds and Improved Post-training Performance
Dario Paccagnan Marco Campi Simone Garatti
研究问题:如何通过压缩理论为学习算法建立新的框架,以获得具有广泛应用的紧致泛化界限。
动机:泛化界限对于理论研究和应用都具有重要价值,可以揭示学习过程的基础机制,并验证学习模型对未见过输入的表现。
方法:将任何给定的学习算法嵌入到适当构造的元算法(称为“选择学习”,P2L)中,以注入理想的压缩属性。
效果:在MNIST分类数据集和合成回归问题上应用P2L,不仅获得了与现有技术相比具有竞争力的泛化界限(测试集和PAC-Bayes界限),而且还学习了具有更好后训练性能的模型。
Unexpected Improvements to Expected Improvement for Bayesian Optimization
Sebastian Ament Sam Daulton David Eriksson Maximilian Balandat Eytan Bakshy
研究问题:现有的期望改进(EI)等优化函数在贝叶斯优化中广泛应用,但其性能往往被新的方法超越。特别是在观察数量、搜索空间维度或约束条件增加时,其数值优化难度加大,导致性能不稳定且通常为次优。
动机:针对这一问题,本文提出了一种新的优化函数族——LogEI。该函数族的成员与经典优化函数具有相同的最优解,但数值优化的难度大大降低。
方法:通过对经典分析EI、期望超体积改进(EHVI)及其受约束、有噪声和并行变体的分析,揭示了数值病态的存在,并提出了相应的改进方案。
效果:实验结果表明,LogEI族的优化函数在经典优化函数的优化性能上有显著提升,且出人意料地与最新的最先进优化函数的性能相媲美,突显了数值优化在文献中被低估的作用。
An Optimal and Scalable Matrix Mechanism for Noisy Marginals under Convex Loss Functions
Yingtai Xiao Guanlin He Danfeng Zhang Daniel Kifer
研究问题:如何有效地保护数据隐私,同时进行下游任务如概率表分析、贝叶斯网络构建和合成数据生成?
动机:现有的矩阵机制在处理线性查询(如边际)时,只能提供一种预定义的目标函数,且在大规模设置中运行速度慢,内存消耗大。
方法:提出了ResidualPlanner,一种用于高斯噪声边际的最优且可扩展的矩阵机制。它可以优化许多可以表示为边际方差凸函数的损失函数,并在大规模设置中以秒为单位优化边际的准确性。
效果:实验结果表明,ResidualPlanner即使在具有100个属性的数据集上也能在几分钟内运行,并且其计算每个边际的方差/协方差值的效率远高于先前的方法。
Optimal Guarantees for Algorithmic Reproducibility and Gradient Complexity in Convex Optimization
Liang Zhang Junchi YANG Amin Karbasi Niao He
研究问题:本文旨在解决机器学习算法在训练过程中的输出偏差问题,特别是在存在误差的优化设置中。
动机:先前的研究认为,一阶方法需要以收敛速度(梯度复杂度)为代价来提高算法的可复制性。本文对此进行了挑战,并证明了在各种误差易发的优化设置下,平滑凸最小化和平滑凸-凹最小最大问题都可以实现最优的可复制性和接近最优的收敛保证。
方法:本文提出了基于正则化的算法,通过使用不精确的初始化、不精确的梯度和随机梯度等不同的优化器,实现了在最小化和最小最大优化问题上的最佳可复制性和接近最优的梯度复杂度。
效果:实验结果表明,这些算法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。同时,这些结果也有助于深化我们对凸优化中的可复制性-收敛性权衡的理解。
Bayesian Extensive-Rank Matrix Factorization with Rotational Invariant Priors
Farzad Pourkamali Nicolas Macris
研究问题:本文探讨了在矩阵分解中,两个隐藏矩阵因子的秩与其维度线性增长,并且其乘积受到加性噪声干扰的情况下的统计模型。
动机:尽管有各种方法,但这类问题的统计和算法限制仍然难以捉摸。
方法:我们研究了一个贝叶斯设置,假设(a)其中一个矩阵因子是对称的,(b)两个因子以及加性噪声都有旋转不变先验,(c)先验知识已知给统计员。我们推导出了旋转不变估计器的解析公式来重构两个矩阵因子,并推测这些在维数大极限下是最优的,因为它们最小化了平均均方误差。
效果:我们的推导依赖于随机矩阵理论变换、球面积分公式和统计力学的复制方法的组合。数值检查证实了最优性猜想,当面临由定义而确定最优但涉及真实情况的Oracle估计器时。
Faster Margin Maximization Rates for Generic Optimization Methods
Guanghui Wang Zihao Hu Vidya Muthukumar Jacob Abernethy
研究问题:优化方法在最小化训练目标时,会存在对某些解的偏好,即“隐含偏置”,这对理解优化算法的泛化能力至关重要。
动机:最近的研究发现,基于梯度下降的方法在可分二分类问题上表现出对$\ell_2$-最大间隔分类器的隐含偏置。然而,通用优化方法如镜像下降和最速下降显示出向由其他几何定义的最大间隔分类器收敛的趋势。
方法:本文提出了一系列先进的镜像下降和最速下降算法的隐含偏置率。主要技术是将通用优化算法转化为解决正则化双线性游戏的在线学习动态,为分析各种优化方法的隐含偏置提供了统一的框架。
效果:通过在这个游戏框架内利用在线学习算法的后悔界,得出了加速的隐含偏置率。
Private Distribution Learning with Public Data: The View from Sample Compression
Shai Ben-David Alex Bie Clement Louis Canonne Gautam Kamath Vikrant Singhal
研究问题:本研究探讨了在有公共数据可用的情况下进行私有分布学习的问题。
动机:在现实世界中,我们经常需要在保护隐私的同时对未知的分布进行学习。
方法:研究者提出了一种称为“公共-私有学习”的方法,该方法结合了公共和私有样本来估计未知分布,同时满足仅对私有样本的隐私约束。
效果:实验结果表明,这种方法可以有效地恢复先前关于高维空间中高斯混合的研究结果,并得出了一些新的结果,包括任意高维空间中高斯混合的样本复杂度上界、对异构和分布偏移具有鲁棒性的学习器以及关于公共-私有学习能力的闭包性质。
On the Minimax Regret for Online Learning with Feedback Graphs
Khaled Eldowa Emmanuel Esposito Tommaso Cesari Nicolò Cesa-Bianchi
研究问题:本文旨在改进在线学习中具有强可观察无向反馈图的后悔上界和下界。
动机:当前已知的最好上界是O(√αTlnK),其中K是行动的数量,α是图的独立数,T是时间范围。当α=1(专家情况)时,已知必须存在√lnK因子。另一方面,当α=K(赌徒情况)时,已知最小最大速率为Θ(√KT),并且对于任何α都存在Ω(√αT)的下界。
方法:我们使用q-Tsallis熵的FTRL来证明这个结果,其中q是一个精心选择的值,在[1/2,1)之间变化。
效果:我们的改进上界O(√αT(1+ln(K/α)))适用于任何α,并与赌徒和专家的下界相匹配,同时插值中间情况。此外,我们还展示了如何扩展我们的技术到时间变化的图,而无需预先了解它们的独立数量。
Alternation makes the adversary weaker in two-player games
Volkan Cevher Ashok Cutkosky Ali Kavis Georgios Piliouras Stratis Skoulakis Luca Viano
研究问题:本文研究了交替在线线性优化(OLO)的变体,即交替OLO。
动机:受到两人游戏中交替博弈的启发,我们研究了交替在线线性优化的变体。
方法:在交替OLO中,学习者在每一轮选择向量$x^t$,然后对手选择成本向量$c^t \in [-1,1]^n$。学习者体验到的成本是$(c^t + c^{t-1})^\top x^t$,而不是标准OLO中的$(c^t)^top x^t$。我们建立了在这种小变化下,$\Omega(sqrt{T})$的遗憾下界不再有效的结论。
效果:我们提出了两种在线学习算法,分别对$n$-维单纯形和半径为$\rho>0$的球体有$\mathcal{O}((\log n)^{4/3} T^{1/3})$的遗憾和$\mathcal{O}(\rho \log T)$的遗憾。我们的研究结果表明,在交替博弈中,无论对手的策略如何,一个代理总能保证$\mathcal{\tilde{O}}((\log n)^{4/3} T^{1/3})$的遗憾,而当代理只承认两个行动时,遗憾界限可以改善到$\mathcal{O}(\log T)$。
Accelerated Quasi-Newton Proximal Extragradient: Faster Rate for Smooth Convex Optimization
Ruichen Jiang Aryan Mokhtari
研究问题:本文旨在提出一种加速的拟牛顿近端梯度下降法,用于解决无约束平滑凸优化问题。
动机:现有的方法在收敛速度上存在限制,我们希望通过改进算法来提高求解效率。
方法:采用最近提出的蒙特罗-斯瓦特加速框架的变体,并从在线学习的角度更新海森矩阵的近似值,以实现更快的收敛速度。
效果:实验结果表明,该方法在各种情况下都能达到比现有方法更快的收敛速度,并在凸设置中首次证明了拟牛顿型方法优于NAG的效果。
Follow-ups Also Matter: Improving Contextual Bandits via Post-serving Contexts
Chaoqi Wang Ziyu Ye Zhe Feng Ashwinkumar Badanidiyuru Haifeng Xu
研究问题:本文旨在解决标准上下文 bandit 问题,即在算法选择行动前观察到所有相关上下文的问题。
动机:对于像Youtube、Instagram、Tiktok这样的内容推荐平台来说,用户点击内容后会获得更多关于用户奖励的额外特征(如用户停留时间、观看速度等)。为了提高这些应用中的在线学习效率,我们研究了具有后期服务的新颖上下文 bandit 问题,并设计了新的算法poLinUCB。
方法:我们的核心是对著名的椭圆形潜在引理(EPL)进行强化和通用化,以适应数据中的噪声。这种强化是解决我们问题的必要条件,尽管我们认为它也可能具有普遍意义。
效果:我们在合成和真实世界的数据集上进行了广泛的实证测试,证明了利用后期服务上下文以及我们的算法优于最先进的方法所带来的显著效益。
Feature Adaptation for Sparse Linear Regression
Jonathan Kelner Frederic Koehler Raghu Meka Dhruv Rohatgi
研究问题:本文研究了在高维统计中稀疏线性回归的核心问题,即如何在相关随机设计设置下,从多元高斯分布$N(0,\Sigma)$中抽取协变量,寻找具有小额外风险的估计器。
动机:在实际问题中,真实信号往往是稀疏的,而传统的算法如Lasso需要大量的样本才能实现稀疏恢复,这在计算上是低效的。因此,如何设计一个能够容忍少量近似依赖关系的高效算法,成为了一个重要的研究问题。
方法:本文提出了一个多项式时间算法,该算法可以根据$\Sigma$自动调整Lasso以容忍少量的近似依赖关系。特别的是,当稀疏度为常数和$\Sigma$有少量“异常”特征值时,该算法可以实现接近最优的样本复杂度。
效果:通过特征适应框架,本文还首次在常数稀疏度$t$和任意协方差$\Sigma$的情况下,实现了比暴力搜索更好的多项式因子改进。
Private (Stochastic) Non-Convex Optimization Revisited: Second-Order Stationary Points and Excess Risks
Daogao Liu Arun Ganesh Sewoong Oh Abhradeep Guha Thakurta
研究问题:本文重新考虑了在差分隐私约束下的非凸优化挑战。
动机:基于先前的方差减少算法SpiderBoost,我们提出了一个新颖的框架,该框架使用两种类型的梯度查询方法:一种估计单个点的梯度,另一种计算两点之间的梯度差,成本更低。
方法:我们的框架可以确保梯度估计的连续性,并提高识别二阶平稳点的速度。此外,我们还尝试通过指数机制在没有任何假设的情况下定位非凸目标的全局最小值。
效果:初步结果显示,正则化指数机制可以有效地模拟以前的实证和总体风险界限,无需对具有多项式运行时间的算法进行平滑性假设。此外,排除运行时间因素后,指数机制显示出有希望的总体风险界限性能,并且我们提供了一个几乎匹配的下界。
On the Learnability of Multilabel Ranking
Vinod Raman UNIQUE SUBEDI Ambuj Tewari
研究问题:多标签排序在机器学习中是一个核心任务,但在具有相关性评分反馈的多标签排序设置中的可学习性的基本问题尚未得到解答。
动机:本研究旨在对大量排名损失函数的多标签排序问题的可学习性进行描述和分类。
方法:通过对比实验,我们给出了两个基于可学习性的等价类排名损失,这两个等价类捕获了实践中使用的大多数损失。
效果:我们的分类结果可以为理解和设计新的排名损失提供指导。
Regret Matching+: (In)Stability and Fast Convergence in Games
Gabriele Farina Julien Grand-Clément Christian Kroer Chung-Wei Lee Haipeng Luo
研究问题:大规模游戏中的Regret Matching+及其变体的成功实践背后的理论理解仍然是一个谜。
动机:最近的快速收敛游戏进展仅限于满足稳定性的无后悔算法,如在线镜像下降。
方法:本文首先给出了反例,显示RM+和其预测版本可能是不稳定的,这可能导致其他玩家遭受巨大的遗憾。然后我们提供了两个修复方案:重启和砍掉RM+工作的正半面。
效果:我们的实验表明,通过具有预测的RM+,这些修复方案足以在标准形式游戏中实现O(T^{1/4})的个人遗憾和O(1)的社会遗憾。我们还将这些稳定技术应用于RM+的非耦合学习设置中的先知更新,并证明了类似于最近对先知在线镜像下降的工作的理想结果。
Characterizing the Optimal $0-1$ Loss for Multi-class Classification with a Test-time Attacker
Sihui Dai Wenxin Ding Arjun Nitin Bhagoji Daniel Cullina Haitao Zheng Ben Y. Zhao Prateek Mittal
研究问题:如何确定在给定威胁模型和固定数据分布下,最佳分类器对对抗性示例的鲁棒性,并将其与最先进的训练方法进行比较。
动机:为了安全部署分类器,找到能够抵御对抗性示例的鲁棒分类器至关重要。
方法:本文提出了一种寻找多分类器在任何离散数据集上对抗测试时攻击者的鲁棒损失信息理论下限的方法。通过从数据和对抗约束构建冲突超图来寻找最优的0-1损失。
效果:首次分析了基准数据集上多分类设置中分类器的鲁棒性与最优鲁棒性之间的差距。
Neural Injective Functions for Multisets, Measures and Graphs via a Finite Witness Theorem
Tal Amir Steven J. Gortler Ilai Avni Ravina Ravina Nadav Dym
研究问题:本文旨在解决理论和实践中关于有向多重集函数的不匹配问题,即研究问题:本文旨在解决理论和实践中关于有向多重集函数的不匹配问题,即理论中通常依赖多项式矩的可证有向多重集函数与实践中依赖神经矩的多重集函数之间的差距。
动机:尽管有向多重集函数在机器学习的多重集和图的理论研究中起着关键作用,但理论中考虑的可证有向多重集函数(通常依赖于多项式矩)与实践中使用的多重集函数(依赖于神经矩)之间存在差距。
方法:本文通过证明神经网络的矩确实定义了有向多重集函数,只要使用分析非多项式激活函数,从而弥合了这个差距。我们的理论所需的矩的数量基本上是最优的,最多可以乘以两个乘数。为了证明这个结果,我们陈述并证明了一个有限的见证定理,这是独立的兴趣点。
效果:作为我们主要定理的推论,我们得到了新的关于多重集和度量函数的近似结果,以及新的关于图神经网络的分离结果。我们还提供了两个负面结果:(1)分段线性神经网络的矩不能是有向多重集函数;(2)即使基于矩的多重集函数是注入的,它们也永远不可能是双射Lipschitz的。
Approximate Heavy Tails in Offline (Multi-Pass) Stochastic Gradient Descent
Krunoslav Lehman Pavasovic Alain Durmus Umut Simsekli
研究问题:本研究旨在解决实际运用中随机梯度下降(SGD)可能出现的重尾行为及其与总体性能的相关性。
动机:尽管理论研究发现在线单次通过SGD可能会出现重尾行为,但这种重尾行为在实际应用中的出现机制,尤其是在有限的训练数据下,尚未得到充分理解。
方法:本研究采用离线多次通过SGD进行研究,并证明其稳态分布会出现“近似”幂律尾,且近似误差由训练数据的实证分布向真实底层数据分布的Wasserstein度量收敛速度控制。
效果:随着数据点数量的增加,离线SGD的行为将越来越“接近”幂律分布。通过对合成数据和神经网络的实验,验证了这一理论。
Non-Asymptotic Analysis of a UCB-based Top Two Algorithm
Marc Jourdan Rémy Degenne
研究问题:本文旨在解决固定置信度下最优臂识别问题,为Top Two算法提供非渐近的理论保证。
动机:尽管Top Two采样规则在最近几年得到了越来越多的关注,但其在固定置信度下最优臂识别问题上的非渐近理论保证尚未得到解决。
方法:本文提出了一种基于UCB算法的Top Two算法,该算法满足了用于最小化遗憾的领导者算法的所有充分属性。
效果:实验结果表明,所提出的基于UCB的Top Two算法不仅具有非渐近的保证,而且具有竞争性的实证性能。
Is Learning in Games Good for the Learners?
William Brown Jon Schneider Kiran Vodrahalli
研究问题:本文探讨了两个代理在重复游戏中的奖励和遗憾之间的权衡问题。
动机:为了解决这个问题,我们引入了一种广义均衡的概念,允许非对称的遗憾约束,并产生了每个代理和每对遗憾约束的可行值的多面体,我们证明了任何这样的均衡都是可以通过一对保持其遗憾保证的算法对抗任意对手来实现的。
方法:我们以一个核心例子来突出显示,其中一个代理是无交换的,另一个代理的遗憾是无约束的。我们展示了这捕获了一个扩展的斯塔克尔伯格均衡,具有匹配的最佳值,并且存在一个广泛的游戏类别,玩家可以通过偏离一个无交换遗憾算法来显著提高他们的效用(事实上,几乎所有没有纯纳什均衡的游戏都属于这种形式)。此外,我们还利用广义均衡来考虑对手的算法选择方面的权衡。
效果:我们给出了对抗一些无遗憾学习者的最大奖励的紧致特性描述,然而我们也展示了一类游戏,其中这个值被限制在一个与常见的“基于均值”的无遗憾算法类所能达到的值之外。最后,我们考虑了在游戏最初未知的情况下,通过与一个无遗憾代理进行重复游戏来学习奖励最优策略的问题。同样,我们展示了取决于对手的学习算法的权衡:对于任何可以通过查询学习的游戏,斯塔克尔伯格策略都可以在指数时间内与任何无遗憾代理一起学习(并且与任何无适应性遗憾代理一起在多项式时间内学习),并且存在一些游戏可以与任何无交换遗憾代理在多项式时间内学习,但需要与基于均值的无遗憾代理进行指数时间的学习。
Smoothed Analysis of Sequential Probability Assignment
Alankrita Bhatt Nika Haghtalab Abhishek Shetty
研究问题:本文旨在对具有上下文的序列概率分配问题的平滑分析进行研究。
动机:为了理解信息理论最优的最小最大速率,以及涉及最大似然估计器(MLE)的算法简化框架。
方法:通过将平滑对手的序列概率分配的最小最大速率降低到转导学习(一种特定类型的学习)的最小最大速率,建立了一个通用的从平滑对手到转导学习的速率降低框架。
效果:对于参数类和具有有限VC维数的类,我们的方法得到了最优(对数)快速率。在算法方面,我们开发了一种有效利用MLE oracle的算法,对于一般函数类,该算法能够产生次线性遗憾。
A Spectral Algorithm for List-Decodable Covariance Estimation in Relative Frobenius Norm
Ilias Diakonikolas Daniel Kane Jasper C.H. Lee Ankit Pensia Thanasis Pittas
研究问题:本文研究了可列表解码的高斯协方差估计问题。
动机:在给定的数据集T中,存在一个未知的小于1/2的比例的点是从未知的高斯分布中抽取的样本,目标是输出一个包含O(1/α)个假设的列表,其中至少有一个与Σ在相对Frobenius范数上接近。
方法:本文提出了一种基于谱技术的算法,该算法只需要多项式(d,1/α)的时间和样本就可以完成任务,并保证了相对Frobenius范数误差为多项式(1/α)。
效果:作为推论,我们得到了一种有效的高斯混合模型的部分聚类的谱算法,这是最近关于鲁棒地学习任意GMMs的工作[BakDJKKV22]的关键部分。结合[BakDJKKV22]的其他部分,我们的方法首次实现了无需求和平方的自由算法来鲁棒地学习GMMs,解决了由Vempala和Kothari提出的开放问题。
Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability
Jingfeng Wu Vladimir Braverman Jason D. Lee
研究问题:本文研究了在机器学习优化中,梯度下降(GD)在稳定性边缘(EoS)操作时的稳定性和收敛性问题。
动机:目前观察到,在机器学习优化中,梯度下降(GD)的操作往往位于稳定性边缘(EoS),其步长被设定为大,导致由GD迭代产生的非单调损失。
方法:通过理论分析和数值模拟,研究了在EoS状态下,固定步长的梯度下降在逻辑回归问题上的收敛性和隐含偏差。
效果:研究发现,尽管存在局部振荡,但逻辑损失可以通过任何固定步长的GD在长时间尺度上最小化。此外,当投影到最大间隔方向(硬间隔SVM方向)时,GD迭代趋向于无穷大;当投影到最大间隔方向的正交补集时,GD迭代会收敛到一个固定的向量,该向量最小化了一个强凸势。这些理论研究结果与数值模拟相符,并补充了现有的关于GD在逻辑回归问题上的收敛性和隐含偏差的理论,这些理论仅适用于步长足够小的情况。
Sample Complexity of Forecast Aggregation
Tao Lin Yiling Chen
研究问题:本文研究了利用贝叶斯预测聚合模型,在未知二进制事件发生后,专家观察到私有信号并报告其对事件的信念,然后由委托人汇总这些报告形成单一预测的问题。
动机:尽管专家和事件的输出遵循一个联合分布,但委托人无法获知这个分布。然而,委托人可以访问来自该分布的独立同分布样本,每个样本都是专家的报告(而非信号)和事件实现的元组。委托人的目标是使用这些样本找到一个ε近似最优的聚合器,其中最优性是根据聚合预测与事件实现之间的期望平方距离来测量的。
方法:我们展示了对于任意离散分布,这个问题的样本复杂度至少为 Ω(m^n-2 / ε),其中 m 是每个专家的信号空间的大小。这个样本复杂度以指数方式增长在专家数量 n 上。但是,如果专家们的信号在给定事件实现的条件下是独立的,那么样本复杂度会显著降低,变为 O(1 / ε^2),并且不依赖于 n。
效果:我们的结果可以推广到非二进制事件。证明结果的过程使用了从分布学习问题进行归约的方法,揭示了预测聚合几乎与分布学习一样困难的事实。
Saddle-to-Saddle Dynamics in Diagonal Linear Networks
Scott Pesme Nicolas Flammarion
研究问题:本文研究了在消失初始化极限下,2层对角线性网络在回归设置中的梯度流轨迹。
动机:了解和揭示消失初始化下的网络训练过程和学习动态。
方法:通过使用类似于LARS算法的递归算法,明确地描述了访问过的鞍点以及跳跃时间。从零向量开始,逐步激活坐标,直到恢复最小$\ell_1$-范数解决方案,揭示了一种增量学习方式。
效果:实验结果支持了我们的研究结论,且该分析对数据的要求极低,适用于欠参数化和过参数化的情况,也适用于活动坐标数量无单调性等复杂情况。
Constant Approximation for Individual Preference Stable Clustering
Anders Aamand Justin Y. Chen Allen Liu Sandeep Silwal Pattara Sukprasert Ali Vakilian Fred Zhang
研究问题:如何利用稳定性和公平性约束进行自然聚类,并解决确定一个数据集是否存在$1$-IP稳定聚类的问题。
动机:目前的聚类方法无法保证稳定性和公平性,且确定$1$-IP稳定聚类的存在性是NP-Hard的。
方法:提出了个体偏好(IP)稳定性的概念,并证明了对于一般度量,总是存在$O(1)$-IP稳定的聚类。同时,还介绍了超越平均距离的IP稳定性的泛化,并在考虑最大和最小距离的情况下给出了高效的近似最优算法。
效果:解决了确定$1$-IP稳定聚类的存在性问题,并提供了高效的聚类算法。
Max-Margin Token Selection in Attention Mechanism
Davoud Ataee Tarzanagh Yingcong Li Xuechen Zhang Samet Oymak
研究问题:本文旨在探索注意力机制背后的理论原理,特别是其非凸优化动态。
动机:尽管注意力机制在大型语言模型的成功中起到了核心作用,但其理论基础尚未得到充分理解。
方法:本研究对softmax-attention模型进行了深入探讨,证明了梯度下降法可以收敛到局部最优的标记选择机制。
效果:实验结果验证了理论研究的正确性,并提供了对注意力机制更深入的理解。
Tight Risk Bounds for Gradient Descent on Separable Data
Matan Schliserman Tomer Koren
研究问题:本文研究了在可分离线性分类中应用无正则化梯度方法的泛化特性。
动机:自Soudry等人(2018)的开创性工作以来,这个领域已经受到了广泛关注。
方法:在这个设置中,我们为任何光滑的损失函数建立了紧密的上界和下界(总体)风险边界,以数据边缘率表示。
效果:我们的风险上界极大地改进了Shamir(2021)和Schliserman和Koren(2022)的现有风险边界,这些边界要么适用于特定的损失函数,要么强加了不必要的技术假设,并且几乎适用于任何凸性和光滑的损失函数。我们的风险下界是该领域的首个,并确立了我们的风险上界的紧致性,适用于任何给定的数据边缘率和所有参数范围。证明这些结果所使用的技巧也明显比之前的工作简单,并且可以很容易地扩展到其他梯度方法;我们通过提供类似随机梯度下降的结果来说明这一点。
Demystifying Softmax Gating Function in Gaussian Mixture of Experts
Huy Nguyen TrungTin Nguyen Nhat Ho
研究问题:解决软最大值门控高斯专家混合模型的参数估计问题。
动机:由于软最大值门控函数在高斯密度中与专家函数的内在交互以及条件密度的复杂依赖性,使得该问题的参数估计长期存在理论挑战。
方法:通过提出新的参数之间的Voronoi损失函数并建立求解这些模型的最大似然估计器的收敛速度,解决了这个问题。
效果:当真实专家数量未知且过度指定时,研究发现了最大似然估计的收敛速度与一组多项式方程的可解性问题之间的联系。
Adaptive Data Analysis in a Balanced Adversarial Model
Kobbi Nissim Uri Stemmer Eliad Tsfadia
研究问题:在自适应数据分析中,如何对未知分布进行准确的估计。
动机:现有的研究结果依赖于一个明显优于机制的敌对模型,这引发了关于所得难度结果的适用性的问题。
方法:我们考虑了更受限制的对手,称为“平衡”,并使用有效的“平衡”对手重新审视以前的下界,基于标准的公钥密码学假设。
效果:我们证明了这些更强的难度假设是不可避免的,因为任何具有已知攻击结构的计算受限的“平衡”对手都意味着存在公钥密码学。
Decentralized Randomly Distributed Multi-agent Multi-armed Bandit with Heterogeneous Rewards
Mengfan Xu Diego Klabjan
研究问题:本文研究了一个去中心的多代理多臂赌博机问题,其中多个客户端通过环境
动机:现有的研究结果依赖于一个明显优于机制的敌对模型,这引发了关于所得难度结果的适用性的问题。
方法:我们考虑了更受限制的对手,称为“平衡”,并使用有效的“平衡”对手重新审视以前的下界,基于标准的公钥密码学假设。
效果:我们证明了这些更强的难度假设是不可避免的,因为任何具有已知攻击结构的计算受限的“平衡”对手都意味着存在公钥密码学。
Regularization properties of adversarially-trained linear regression
Antonio H. Ribeiro Dave Zachariah Francis Bach Thomas B. Schön
研究问题:最先进的机器学习模型可能对恶意构造的极小输入扰动非常脆弱,对抗性训练是防御的有效方法。
动机:线性模型等简单模型存在易受攻击的问题,我们的研究重点在此。
方法:我们将对抗性训练在线性回归中的解决方案与其他正则化方法进行了比较分析。
效果:我们发现(A)只要最大干扰半径小于阈值,对抗性训练就会在过参数化区域产生最小范数插值解。(B)在适当的选择对抗半径和零均值对称分布协变量的情况下,对抗性训练可以等同于参数收缩方法(岭回归和Lasso)。(C)对于$\ell_\infty$-对抗性训练-如同平方根Lasso-最优边界的对抗半径的选择并不依赖于附加噪声方差。我们的理论研究结果通过数值示例得到了证实。
Robust Distributed Learning: Tight Error Bounds and Breakdown Point under Data Heterogeneity
Youssef Allouah Rachid Guerraoui Nirupam Gupta Rafael Pinot Geovani Rizk
研究问题:现有的分布式学习算法理论在面对数据异构性时,其学习误差下界基本无效,与实际观察存在严重不匹配。
动机:由于现有理论的异构性模型过于严格且未覆盖最基本的学习任务,如最小二乘回归,因此无法有效解释和预测实际场景中的学习误差。
方法:本文提出了一种更现实的异构性模型,即$(G,B)$-梯度相似性模型,并证明其能覆盖比现有理论更广泛的学习问题。
效果:实验结果显示,该模型的学习误差下界低于传统理论的$frac{1}{2}$,并且通过对比分析,理论与实践之间的差距得到了显著缩小。
One-step differentiation of iterative algorithms
Jerome Bolte Edouard Pauwels Samuel Vaiter
研究问题:本文旨在研究一种新的一阶微分方法,即雅可比无反向传播,该方法既简单易用又高效。
动机:传统的自动微分和隐式微分在处理大规模运算时存在计算负担大的问题,而迭代算法的雅可比评估则需要自定义实现。因此,需要一种既能像自动微分一样简单,又能像隐式微分一样高效的微分方法。
方法:本文提出了一种名为雅可比无反向传播的一阶微分方法,该方法适用于快速算法(如超线性优化方法)。通过具体的示例(如牛顿法、梯度下降法)以及双层优化中的结果,进行了完整的理论近似分析。
效果:数值示例证明了一阶估计器的有效性。
Efficient Online Clustering with Moving Costs
Dimitris Christou EFSTRATIOS PANTELEIMON SKOULAKIS Volkan Cevher
研究问题:本文研究了在线学习中的一种问题,即带有移动成本的在线$k$-聚类。
动机:在这个问题中,学习者需要在T轮中维护一个包含k个设施的集合,以最小化对手选择的一系列客户的连接成本。学习者只能在每轮t选择设施后才能知道客户的位置,并可以使用此信息在下一轮更新其决策。然而,更新设施位置会带来额外的移动成本,这取决于设施的移动距离。
方法:我们提出了第一个保证总体成本(连接+移动)最多是最佳固定解决方案的时间平均连接成本的$\mathcal{O}(\log n)$倍的$mathcal{O}(\log n)$-遗憾在线学习算法。
效果:我们的研究改进了最近的结果(Fotakis等人,2021年),该结果仅保证了连接成本的$\mathcal{O}(k)$-遗憾保证。
Smoothed Online Learning for Prediction in Piecewise Affine Systems
Adam Block Max Simchowitz Russ Tedrake
研究问题:分段仿射(PWA)回归和规划在在线学习、控制和机器人学中的基础重要性,为研究系统动力学急剧变化提供了理论和实证上易于处理的环境。
动机:由于跨越不同“段”时产生的不连续性,一般的序列设置中的学习是不可能的,实际的算法被迫采用启发式方法。
方法:我们提出了第一个保证总体成本(连接+移动)最多是最佳固定解决方案的时间平均连接成本的$\mathcal{O}(\log n)$倍的$mathcal{O}(\log n)$-遗憾在线学习算法。
效果:我们的研究改进了最近的结果(Fotakis等人,2021年),该结果仅保证了连接成本的$\mathcal{O}(k)$-遗憾保证。
Best Arm Identification with Fixed Budget: A Large Deviation Perspective
Po-An Wang Ruo-Chun Tzeng Alexandre Proutiere
研究问题:使用固定采样预算在随机多臂赌博机(MABs)中识别最佳
动机:由于跨越不同“段”时产生的不连续性,一般的序列设置中的学习是不可能的,实际的算法被迫采用启发式方法。
方法:我们提出了第一个保证总体成本(连接+移动)最多是最佳固定解决方案的时间平均连接成本的$\mathcal{O}(\log n)$倍的$mathcal{O}(\log n)$-遗憾在线学习算法。
效果:我们的研究改进了最近的结果(Fotakis等人,2021年),该结果仅保证了连接成本的$\mathcal{O}(k)$-遗憾保证。
Agnostically Learning Single-Index Models using Omnipredictors
Aravind Gollakota Parikshit Gopalan Adam Klivans Konstantinos Stavropoulos
研究问题:本文旨在解决如何通过任意单调和Lipschitz激活函数,以无先验知识的方式学习单指数模型(SIMs)。
动机:现有的方法要么仅适用于可实现的设置,要么需要已知激活函数。此外,我们只需要边际具有有界的二阶矩,而所有现有工作都需要更强的分布假设(如反集中或有界性)。
方法:我们的算法基于Gopalan等人[2023]关于使用满足校准多精度的预测器的全预测的工作。我们的分析简单,依赖于Bregman散度(或匹配损失)与l_p距离之间的关系。我们还为标准的算法如GLMtron和逻辑回归在无先验知识的设置中提供了新的保证。
效果:实验结果表明,我们的方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
When Can We Track Significant Preference Shifts in Dueling Bandits?
Joe Suk Arpit Agarwal
研究问题:本文探讨了在用户偏好/口味随时间变化的情况下,如何设计一个具有适应性研究问题:本文探讨了在用户偏好/口味随时间变化的情况下,如何设计一个具有适应性的算法来解决带有分布偏移的 $K$-armed 决斗博弈问题。
动机:由于用户偏好/口味可能会随着时间的推移而发生变化,因此需要研究在分布偏移情况下如何解决 $K$-armed 决斗博弈问题。
方法:本文研究了最近提出的显著偏移概念(Suk and Kpotufe, 2022),并探讨了是否可以设计一个具有 $O(\sqrt{K\tilde{L}T})$ 动态遗憾的自适应算法来解决决斗问题。
效果:本文首先给出了一个不可能的结果,排除了在康多塞和 SST 类偏好分布下具有 $O(sqrt{K\tilde{L}T})$ 动态遗憾的任何算法。其次,本文证明了 $\text{SST}\cap \text{STI}$ 是最受欢迎的偏好分布类中可以设计此类算法的最大类。总体而言,本文为上述问题的分布类别层次提供了几乎完整的解决方案。
A Unifying Perspective on Multi-Calibration: Game Dynamics for Multi-Objective Learning
Nika Haghtalab Michael Jordan Eric Zhao
研究问题:本文旨在为多校准预测器的设计分析提供一个统一的框架。
动机:在多目标学习的背景下,同时满足一组分布和损失函数的学习保证,通过利用游戏动态来达到最先进的多校准学习问题的保证。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Data-driven Optimal Filtering for Linear Systems with Unknown Noise Covariances
Shahriar Talebi Amirhossein Taghvaei Mehran Mesbahi
研究问题:本文旨在学习线性系统中未知噪声协方差矩阵的最优滤波策略,即卡尔曼增益,使用有噪声的输出数据。
动机:现有的学习方法无法直接将数据驱动最优控制与它的对偶,即最优滤波相连接。
方法:采用随机梯度下降算法来解决滤波问题,并考虑了偏置梯度和稳定性约束的影响。同时,利用线性系统理论和高维统计工具来推导误差边界。
效果:实验结果表明,该方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Tracking Most Significant Shifts in Nonparametric Contextual Bandits
Joe Suk Samory Kpotufe
研究问题:本文研究了非参数上下文bandits,其中Lipschitz均值奖励函数可能会随时间变化。
动机:在当前这个理解较少的设置中,我们首先建立了最小最大动态遗憾率,以变化的数目L和总变差V来表示,这两者都捕捉了上下文空间中的所有分布变化,并认为最先进的程序在这种设置下是次优的。
方法:接下来,我们尝试解决这种设置下的适应性问题,即在不知道L或V的情况下实现最小最大速率。非常重要的是,我们认为在给定的上下文X_t处查看的bandit问题,不应受到上下文空间其他部分奖励变化的影响。因此,我们提出了一种称为“经验重大转变”的概念,它更好地考虑了局部性,因此计算的变化比L和V少得多。此外,与最近关于非平稳MAB的工作(Suk & Kpotufe,2022)类似,“经验重大转变”只计算均值奖励的最显著变化,例如与观察到的上下文相关的严重最佳手臂变化。
效果:我们的主要结果是展示这种更容忍的变化概念实际上可以被适应。
SQ Lower Bounds for Non-Gaussian Component Analysis with Weaker Assumptions
Ilias Diakonikolas Daniel Kane Lisheng Ren Yuxin Sun
研究问题:本文研究了统计查询模型中非高斯成分分析(NGCA)的复杂性。
动机:先前的工作已经发展出一种证明NGCA在统计查询模型下具有下界的方法,这种方法已被广泛应用于各种情况。
方法:我们证明了仅需要满足矩匹配条件,就可以得到NGCA在统计查询模型下的近似最优下界。
效果:我们的工作表明,矩匹配条件是必要的,而卡方条件并非必须。
Fair, Polylog-Approximate Low-Cost Hierarchical Clustering
Marina Knittel Max Springer John P Dickerson MohammadTaghi Hajiaghayi
研究问题:近年来,公平机器学习,特别是聚类的研究至关重要,因为现代智能系统引发了许多伦理
动机:先前的工作已经发展出一种证明NGCA在统计查询模型下具有下界的方法,这种方法已被广泛应用于各种情况。
方法:我们证明了仅需要满足矩匹配条件,就可以得到NGCA在统计查询模型下的近似最优下界。
效果:我们的工作表明,矩匹配条件是必要的,而卡方条件并非必须。
Minimax-Optimal Location Estimation
Shivam Gupta Jasper C.H. Lee Eric Price Paul Valiant
研究问题:如何在有限的样本数量下,对未知的参数$\mu$进行高精度的估计?
动机:在参数统计中,位置估计是最基础的问题之一。尽管最大似然估计器(MLE)在样本数量趋向无穷大时是最优的,但在有限样本的情况下其性能如何尚待研究。
方法:本文提出了两种基于不同标准的位置估计器:1)一种以最小化最大误差并保证成功概率为$1-\delta$为目标的估计器;2)一种具有最小期望平方区间宽度的信心区间估计器,该估计器在所有位移不变的估计器中,其输出区间包含$\mu$的概率至少为$1-\delta$。
效果:后者的构造可以推广到最小化期望损失函数在区间宽度上的情况。
Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation
Nikki Lijing Kuang Ming Yin Mengdi Wang Yu-Xiang Wang Yian Ma
研究问题:本文旨在解决强化学习中由于延迟反馈导致的性能下降问题。
动机:现有的强化学习算法通常依赖于即时反馈,而忽视了观察结果的延迟影响,这在现实世界系统中可能导致性能严重下降。
方法:本文提出了两种算法,Delayed-PSVI和Delayed-LPSVI,分别采用后验采样和结合梯度近似采样方案来处理延迟反馈的问题。
效果:实验结果表明,这两种算法在统计和计算效率上都表现出色,能有效应对延迟反馈带来的挑战。
Projection-Free Methods for Solving Nonconvex-Concave Saddle Point Problems
Morteza Boroun Erfan Yazdandoost Hamedani Afrooz Jalilzadeh
研究问题:本文研究了一类目标函数为非凸-凹且平滑的约束鞍点问题,这类问题在机器学习中有广泛应用。
动机:尽管已有一些基于投影的原始-对偶方法来解决这个问题,但缺乏无投影方法的研究。
方法:提出了一种依赖一阶信息的高效单循环无投影方法。具体来说,通过正则化和嵌套近似技术,我们提出了一种仅使用线性最小化查询处理约束的原-对偶条件梯度方法。
效果:当最大化问题的约束集是强凸时,我们的方法可以在$\mathcal{O}(\epsilon^{-6})$次迭代内实现$\epsilon$-稳定解。当最大化问题的约束集的投影易于计算时,我们提出了一种单侧无投影方法,可以在$mathcal{O}(epsilon^{-4})$次迭代内实现$\epsilon$-稳定解。此外,我们还展示了在强凹性假设下改进的迭代复杂度。据我们所知,我们的算法是首批具有收敛保证的非凸-凹SP问题无投影方法之一。
Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards
Hao Qin Kwang-Sung Jun Chicheng Zhang
研究问题:本文研究了$K$-armed bandit问题,其中所有手臂的奖励分布都支持在$[0,1]$区间内。
动机:Maillard采样是一种有吸引力的Thompson采样的替代方案,最近已证明在次高斯奖励设置中实现竞争性遗憾保证,同时保持封闭形式的行动概率,这对离线策略评估很有用。
方法:我们分析了Kullback-Leibler Maillard Sampling(KL-MS)算法,这是Maillard采样的自然扩展和最小经验发散(MED)的特殊案例,用于实现有限时间间隔依赖的KL式遗憾界限。
效果:当奖励是伯努利分布时,KL-MS具有渐近最优性,最坏情况的遗憾界限形式为$O(sqrt{\mu^*(1-\mu^*) K T \ln K} + K \ln T)$,其中$\mu^*$是最优手臂的期望奖励,$T$是时间范围长度;这是文献中首次报告此类算法具有渐近最优性保证的适应性。
No-Regret Online Prediction with Strategic Experts
Omid Sadeghi Maryam Fazel
研究问题:本文研究了在线二元预测与专家建议的一般化框架,其中学习者在研究问题:本文研究了在线二元预测与专家建议的一般化框架,其中学习者在每一轮中可以从K个专家的池子中选择m个专家,并且总体效用是所选专家的模块或亚模块函数。
动机:当专家为了最大化他们对算法预测的影响而可能误报他们关于事件的信念时,我们关注专家会采取策略性行动的情况。这种设置在预测比赛中找到了应用,其中学习者不仅通过聚合不同的预测器来做出预测,而且还要根据他们的相对性能对它们进行排名。
方法:我们的目标是设计满足以下两个要求的算法:1)激励兼容:激励专家们如实报告他们的信念;2)无遗憾:相对于事后最佳固定m个专家的真实信念实现次线性遗憾。
效果:我们首先证明将我们的问题简化为m=1的情况既不是高效的也不是有效的。然后,我们提供了利用效用函数特定结构的算法来实现这两个目标。
$H$-Consistency Bounds: Characterization and Extensions
Anqi Mao Mehryar Mohri Yutao Zhong
研究问题:本文旨在为替代损失函数提出更通用的工具和特性描述。
动机:Awasthi等人的最近发表的一系列论文引入了*$H$-一致性边界*的关键概念,这是预测器在假设集中的任何零一估计误差的上界,用其替代损失估计误差表示。然而,确定它们是否适用以及推导这些边界需要对每个替代损失进行特定的证明和分析。我们能否得出更通用的工具和特性描述?
方法:本文提供了一种一般的特性描述和对多类分类的$H$-一致性边界的扩展。我们为约束损失函数族和comp-sum损失函数族(包括应用于神经网络输出的交叉熵或逻辑损失)提出了新的、紧密的$H$-一致性边界。
效果:我们进一步将我们的分析扩展到了先前研究中采用的完整性假设之外,涵盖了更现实的有界假设集。我们的特性描述基于错误转换,每种形式都明确定义。通过几个特殊的例子,我们说明了我们一般结果的应用。我们分析的一个副产品是观察到最近为交叉熵导出的多类$H$-一致性边界降低到一个超额边界,并且并不显著。相反,我们证明了一个更强且更重要的保证。
A Trichotomy for Transductive Online Learning
Steve Hanneke Shay Moran Jonathan Shafer
研究问题:本文旨在确定在线学习中学习者错误数量的上下界。
动机:在Ben-David, Kushilevitz和Mansour (1997)的“转导”在线学习设置中,除了对手在游戏开始时固定一系列实例$x_1,\dots,x_n$并让学习者知道这一序列外,该设置与标准在线学习类似。
方法:我们证明了一个“三重性”,即随着n的增长,学习者犯的最小错误数量只能为三个可能值之一:n、$\Theta\left(log (n)\right)$或$Theta(1)$。此外,这种行为由VC维数和小石塔维数共同决定。
效果:我们展示了各种将错误数量与众所周知的组合维度联系起来的界限。特别是,我们将已知的$\Theta(1)$情况中的常数下界从$Omega\left(\sqrt{\log(d)}\right)$提高到$Omega(\log(d))$,其中d是小石塔维数。最后,我们将结果扩展到多类分类和不确定设置。
Structured Prediction with Stronger Consistency Guarantees
Anqi Mao Mehryar Mohri Yutao Zhong
研究问题:本文旨在对结构预测的替代损失进行深入研究,并利用*$H$-一致性边界*进行支持。
动机:最近的研究表明,$H$-一致性边界比贝叶斯一致性更适用于学习,因为它们不是渐近的,并且考虑了使用的假设集$H$。
方法:首先,我们证明了无法为广泛使用的替代结构预测损失导出任何非平凡的$H$-一致性边界。然后,我们定义了几个新的替代损失族,包括*结构化comp-sum损失*和*结构化约束损失*,并证明了它们的$H$-一致性边界和贝叶斯一致性。这些损失函数可以很容易地引导出具有更强理论保证的新结构预测算法,基于它们的最小化。
效果:我们描述了几种这些替代损失的最小化的有效算法,包括一种新的*结构化逻辑损失*。
Advice Querying under Budget Constraint for Online Algorithms
Ziyad Benomar Vianney Perchet
研究问题:本文研究了在有限制的预测数量下,如何最有效地查询和使用预测信息。
动机:大多数现有工作假设算法可以无限制地获取预测输入,但在实际中,预测的数量是有限的。
方法:通过研究三种经典的竞争分析问题(滑雪租赁问题、秘书问题和非透视工作调度问题),探讨何时查询预测以及如何使用预测。
效果:提出了一种有效的策略,可以在有限的预测数量下,最大限度地提高算法的性能。
Experiment Planning with Function Approximation
Aldo Pacchiano Jonathan Lee Emma Brunskill
研究问题:本文研究了在上下文强盗问题中,如何利用函数近似进行实验规划。
动机:在某些情况下,部署自适应算法的成本较高,例如需要分布式执行数据收集策略或需要人类参与实施这些策略,因此预先制定一组数据收集策略至关重要。
方法:我们提出了两种与函数近似兼容的实验规划策略。首先,我们设计了一种逃避规划和采样程序,该程序可以根据奖励函数类的逃避维度恢复最优性保证。其次,我们在动作数量较少的情况下证明了均匀采样器实现了竞争性的最优率。
效果:我们通过引入统计差距来说明规划和自适应学习之间的本质区别,并为带有模型选择的规划提供了结果。
Rethinking Gauss-Newton for learning over-parameterized models
Michael Arbel Romain Menegaux Pierre Wolinski
研究问题:本研究探讨了高斯牛顿法在优化过参数化单隐藏层网络时,在全球收敛性和隐含偏置方面的表现。
动机:尽管高斯牛顿法比随机梯度下降法更快找到全局最优解,但其学习到的模型在测试数据上是否具有良好的泛化能力仍不清楚。
方法:通过合成回归任务进行实证研究,使用小步长来减慢收敛速度,并从具有小方差的随机初始权重开始。
效果:研究发现,这种设置会导致隐藏的学习现象,即使由于线性层的欠优化,训练和测试性能不佳,动态仍然能够恢复具有良好泛化特性的特征。这项研究表明,高斯牛顿法的收敛速度与学习解决方案的泛化能力之间存在权衡。
Recovering Simultaneously Structured Data via Non-Convex Iteratively Reweighted Least Squares
Christian Kümmerle Johannes Maly
研究问题:如何从线性观察中恢复遵守多个异构低维结构的数据。
动机:针对同时具有行稀疏和低秩特性的数据矩阵,提出一种可以充分利用这两种结构的新算法。
方法:提出了一种迭代重加权最小二乘(IRLS)算法,该算法优化了非凸的行稀疏和秩的替代方案的组合,并在算法中平衡这两者。
效果:实验证明,IRLS方法在少量样本复杂性下显示出良好的经验收敛性,可以从比现有方法更少的测量中识别出同时具有行稀疏和低秩特性的矩阵。
SOL: Sampling-based Optimal Linear bounding of arbitrary scalar functions
Yuriy Biktairov Jyotirmoy Deshmukh
研究问题:寻找神经网络中激活函数的紧线性边界是最先进的神经网络鲁棒性认证工具的重要组成部分。
动机:在现有的鲁棒性认证工作中,这些边界是通过人类的智慧为一些最受欢迎的激活函数计算出来的。尽管已经提出了许多启发式方法来限制任意函数,但据我们所知,还没有对一般标量函数的紧致最优性进行分析。
方法:我们通过制定一个简洁的最优性标准来填补这一空白,该标准允许我们为任何在感兴趣区域R内凸的函数建立最优边界。对于在R中Lipshitz连续的更一般的函数类,我们提出了一种基于采样的方法(SOL),该方法在给定的阈值ε>0下有效地计算最紧的线性边界。
效果:我们利用自适应采样技术迭代地构建一组适合表示目标激活函数的样本点。虽然我们方法的理论最坏情况时间复杂度为O(ε-2d),但它通常只需要O(logβ1/ε)的时间,其中β≥1,因此在实际应用中足够快。我们将SOL纳入鲁棒性认证器中,观察到它产生的认证率与其它方法相当或更高,同时所需时间仅为其它方法的四分之一,从而提供了SOL实用性的实证证据。
Near Optimal Reconstruction of Spherical Harmonic Expansions
Amir Zandieh Insu Han Haim Avron
研究问题:提出一种算法,通过使用接近最优数量的函数评估,恢复定义在$d研究问题:提出一种算法,通过使用接近最优数量的函数评估,恢复定义在$d$-维单位球面$\mathbb{S}^{d-1}$上的函数的球谐展开。
动机:对于任何$f\in L^2(\mathbb{S}^{d-1})$,需要评估$f$的次数等于球谐空间的维度,最多为$q$,这是一个优化问题。
方法:开发了一种简单而有效的基于核回归的算法,仅通过对$\mathbb{S}^{d-1}$上的均匀采样点进行函数评估,就可以恢复$f$的$q$阶展开。该算法建立在球谐函数和Gegenbauer多项式之间的联系上。
效果:实验结果表明,该算法在任何维度$d$下都能有效地使用接近最优数量的样本工作。
The Gain from Ordering in Online Learning
Vasilis Kontonis Mingchen Ma Christos Tzamos
研究问题:本文研究固定设计在线学习,即学习者可以自由选择数据点的顺序以最小化他们的遗憾(也称为自我指导的在线学习)。
动机:我们专注于在线线性回归的基本任务:给定一个数据集X,学习者在步骤t中选择一个点x_t ∈ X,预测一个值 并承受损失( - w * x_t)^2。目标是设计能够排序例子并实现比随机或最坏顺序在线算法更好的遗憾的算法。
方法:对于任意数据集X,我们在指数时间假设下证明,没有高效的算法可以在因子d^{1/\poly(log \log d)}内近似最优(最佳)遗憾。
效果:然后我们展示,对于结构化数据集,我们可以绕过上述困难结果并实现近乎最优的遗憾。当X的例子是从球面上的均匀分布中抽取时,我们提出了一种基于选择“最容易”的例子先的贪婪启发式算法,实现了最优遗憾的对数-d近似。
The noise level in linear regression with dependent data
Ingvar Ziemann Stephen Tu George J. Pappas Nikolai Matni
研究问题:本文旨在对具有依赖性(β混合)数据的随机设计线性回归进行上界推导,无需任何可实现性假设。
动机:与严格的可实现鞅噪声机制不同,文献中没有严格的实例最优非渐近分析。
方法:通过引入偏差,我们的分析正确地恢复了由中心极限定理预测的方差项——问题的噪声水平,从而表现出优雅的退化。在燃烧过程中,我们的结果在适度偏差范围内是尖锐的,特别是不会通过混合时间因素来放大主要顺序项。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Experimental Designs for Heteroskedastic Variance
Justin David Naggar Weltz Tanner Fiez Alexander Volfovsky Eric Laber Blake Mason houssam nassif Lalit K Jain
研究问题:在现实环境中,许多实验设计问题存在异方差噪声,而大多数线性实验设计问题则假设同方差。
动机:本研究旨在解决这一问题,提出了一种新的方法来处理具有异方差噪声的实验设计问题。
方法:我们让学习者可以访问一组有限的测量向量集,通过这些向量可以获得带有噪声的线性响应。我们提出了一种新的设计,用于一致地约束方差参数的估计误差。
效果:我们在两个具有异方差噪声的适应性实验设计问题上展示了这种方法,并证明了在这些设置中的第一个实例依赖下界。我们还构建了近乎最优的算法,并通过实证研究证明了考虑异方差方差在这些设计中可以显著降低样本复杂度。
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs
Dongsheng Ding Chen-Yu Wei Kaiqing Zhang Alejandro Ribeiro
研究问题:计算无限期折扣约束马尔可夫决策过程的最优策略。
动机:尽管拉格朗日基策略搜索方法在实践中广泛使用,但这些方法中策略迭代的振荡现象尚未得到充分理解,带来了诸如违反约束和对超参数敏感等问题。
方法:采用拉格朗日法将约束马尔可夫决策过程转化为约束鞍点问题,其中最大/最小玩家分别对应原始/对偶变量,并开发了两个单时间尺度基于策略的原始-对偶算法,其策略迭代非渐近收敛于最优约束策略。
效果:实验结果表明,我们的方法在计算性能上优于现有的基线方法,并在大规模状态或动作空间中具有良好的扩展性。
$\varepsilon$-fractional core stability in Hedonic Games.
Simone Fioravanti Michele Flammini Bojana Kodric Giovanna Varricchio
研究问题:如何有效地在合作博弈中寻找稳定且易于计算的联盟结构。
动机:传统的合作博弈模型中的稳定联盟结构往往难以找到,即使存在也常常无法有效计算。
方法:提出ε-分部核心稳定性的概念,允许最多ε比例的可能联盟成为核心阻碍。设计了针对简单分数和匿名两种基本合作博弈的有效算法来寻找ε-分部核心稳定的联盟结构。
效果:通过引入更复杂的采样分布,使得当估值需要以PAC学习的方式从样本中学习时,能够高效地计算出具有任意高置信度的ε-分部核心稳定的联盟结构。
A unified framework for information-theoretic generalization bounds
Yifeng Chu Maxim Raginsky
研究问题:本文提出了一种获取学习算法信息理论泛化界限的通用方法。
动机:主要技术工具是基于测度变化和$L_{\psi_p}$ Orlicz空间中Young不等式的放松的概率解相关引理。
方法:通过解相关引理与其他技术如概率测度空间中的对称化、耦合和链接相结合,得到了新的上界,包括期望和高概率上的泛化误差。
效果:作为特殊情况,该方法恢复了现有的许多泛化界限,包括基于互信息、条件互信息、随机链接和PAC-Bayes不等式的情况。此外,Fernique--Talagrand上界作为子高斯过程期望上确界的特殊情况出现。
Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence and Variance Reduction
Xiaowen Jiang Sebastian U Stich
研究问题:现有的随机Polyak步长(SPS)和随机线搜索(SLS)算法在训练过参数化模型时表现出显著的有效性,但在非插值设置中只能保证收敛到解的邻域,可能导致输出结果比初始猜测差。
动机:为了解决上述问题,我们提出了两种新的稳健变体算法AdaSPS和AdaSLS,并设计了一种新的带有方差减少(VR)的方法来加速这两种步长,使其在所有情况下都能达到最优收敛速度。
方法:我们提出的AdaSPS和AdaSLS算法可以在强凸或凸、插值或非插值设置中实现最优渐近速率。AdaSLS不需要知道问题相关的参数,而AdaSPS只需要输入最优函数值的下界。我们还设计了一种新的带有方差减少的方法,可以使用Polyak步长或线搜索进行加速。
效果:我们在合成和真实数据集上的数值实验验证了我们的理论,并展示了我们的算法的有效性和鲁棒性。
First Order Stochastic Optimization with Oblivious Noise
Ilias Diakonikolas Sushrut Karmalkar Jongho Park Christos Tzamos
研究问题:现有的随机Polyak步长(SPS)和随机线搜索(SLS)算法在训练过参数化模型时表现出显著的有效性,但在非插值设置中只能保证收敛到解的邻域,可能导致输出结果比初始猜测差。
动机:为了解决上述问题,我们提出了两种新的稳健变体算法AdaSPS和AdaSLS,并设计了一种新的带有方差减少(VR)的方法来加速这两种步长,使其在所有情况下都能达到最优收敛速度。
方法:我们提出的AdaSPS和AdaSLS算法可以在强凸或凸、插值或非插值设置中实现最优渐近速率。AdaSLS不需要知道问题相关的参数,而AdaSPS只需要输入最优函数值的下界。我们还设计了一种新的带有方差减少的方法,可以使用Polyak步长或线搜索进行加速。
效果:我们在合成和真实数据集上的数值实验验证了我们的理论,并展示了我们的算法的有效性和鲁棒性。
Sharp Recovery Thresholds of Tensor PCA Spectral Algorithms
Michael Jacob Feldman David Donoho
研究问题:如何从噪声张量数据中恢复低秩近似。
动机:许多应用需要从噪声张量数据中恢复低秩近似,为此我们考虑了几种实用的有效矩阵化策略。
方法:我们采用了张量展开、部分追踪、幂迭代和递归展开等策略,通过构造特定的矩阵并应用谱方法来处理噪声张量数据。
效果:我们的分析利用随机矩阵理论得到了尖锐的阈值,这些阈值避开了扰动和集中界限的影响。具体来说,我们在以前的算法部分恢复信号的条件下,证明了幂迭代和递归展开方法可以实现(渐近)精确恢复。
Fast and Simple Spectral Clustering in Theory and Practice
Peter Macgregor
研究问题:设计一种有效的算法在图G中找到k个聚类。
动机:传统的谱聚类算法中,图G的顶点通过图拉普拉斯矩阵的k个特征向量嵌入到R^k中,但这种嵌入计算成本高且占据大部分运行时间。
方法:提出一种基于幂法计算O(log(k))向量的简单谱聚类算法,该算法中的顶点嵌入计算时间与图的大小呈线性关系,并在对输入图的自然假设下证明能恢复真实的聚类。
效果:在多个合成和真实世界的数据集上评估新算法,发现它比其它聚类算法快得多,同时产生的结果具有相近的聚类准确性。
On Learning Latent Models with Multi-Instance Weak Supervision
Kaifu Wang Efthymia Tsamoura Dan Roth
研究问题:本文研究了弱监督学习场景下的多实例部分标签学习(multi-instance PLL)问题,即由多个输入实例的标签转移函数生成的监督信号。
动机:尽管存在许多学习方法,但对此问题的理论研究却很少。因此,作者提出了一个必要且充分的条件来解决这个问题。
方法:作者提出了一个必要且充分的条件来保证这个问题的可学习性,并基于广泛使用的神经符号文献中的top-k替代损失推导出了Rademacher风格的误差边界。
效果:实验结果与理论发现一致,但也暴露出弱监督学习文献中的可扩展性问题。
Bicriteria Approximation Algorithms for the Submodular Cover Problem
Wenjing Chen Victoria G. Crawford
研究问题:本文研究了子模块覆盖(SCP)优化问题,即在有限的全集U中找到一个最小基数的子集,使得子模块函数f的值高于输入阈值τ。
动机:现有的SCP算法无法有效处理非单调和正则化的情况,且运行时间较长。
方法:本文提出了一种可扩展的单调SCP算法,该算法在显著更快的时间内实现了与标准贪婪算法几乎相同的近似保证;同时,我们也是首次开发了通用SCP算法,该算法的解决方案可以任意接近可行解;最后,我们还首次开发了正则化SCP算法。
效果:实验结果表明,我们的算法在数据汇总和图割等SCP应用中非常有效。
Exponentially Convergent Algorithms for Supervised Matrix Factorization
Joowon Lee Hanbaek Lyu Weixin Yao
研究问题:本文旨在解决监督矩阵分解(SMF)中同时寻找特征提取和分类任务的问题,以及高维数据的挑战。
动机:现有的SMF模型训练方法存在非凸优化和可能的约束问题,且已知算法要么基于启发式,要么只对特殊情况提供弱收敛保证。
方法:本文提出了一种新的框架,将SMF提升为组合因子空间中的低秩矩阵估计问题,并提出了在温和假设下,可以以任意初始值指数快速收敛到目标函数全局最小值的有效算法。
效果:该框架适用于具有辅助特征的多类分类的多种SMF类型问题。实验证明,该算法成功识别了各种癌症中已知的癌症相关基因群。
Outlier-Robust Wasserstein DRO
Sloan Nietert Ziv Goldfeld Soroosh Shafiee
研究问题:本文旨在解决数据驱动决策中存在的不确定性问题,特别是在几何和非几何扰动下。
动机:现有的Wasserstein分布鲁棒优化(WDRO)方法无法处理对抗性异常值等非几何扰动,这会严重扭曲Wasserstein距离测量并阻碍学习到的模型。
方法:提出一种新的异常值稳健的WDRO框架,该框架允许一定比例的数据被任意破坏,同时考虑了几何(Wasserstein)和非几何(总变差(TV))两种类型的扰动。设计了一个包含两种扰动类型的不确定性集合,并推导出了明确的捕获Wasserstein和TV风险的极小极大最优超额风险界限。
效果:通过一系列标准回归和分类任务的实验验证了理论的正确性。
Incentivized Communication for Federated Bandits
Zhepei Wei Chuanhao Li Haifeng Xu Hongning Wang
研究问题:现有的联邦学习算法通常假设所有客户端都会无私地共享数据,但这种理想化的情况在现实中往往无法实现,特别是在面对自私的客户端时。
动机:忽视这种自私行为可能会严重影响联邦学习的效率和实用性。因此,我们提出了一个激励通信问题,通过提供奖励来鼓励客户端共享数据。
方法:我们在上下文线性设置中实例化了这个强盗问题,并提出了第一个激励通信协议——Inc-FedUCB,该协议具有可证明的通信和激励成本保证,实现了接近最优的遗憾。
效果:我们在合成和真实世界的数据集上进行了广泛的实验,进一步验证了该方法在不同环境中的有效性。
Learning Provably Robust Estimators for Inverse Problems via Jittering
Anselm Krainovic Mahdi Soltanolkotabi Reinhard Heckel
研究问题:本文旨在研究深度神经网络在逆问题上的最优最坏情况鲁棒性,以及研究问题:本文旨在研究深度神经网络在逆问题上的最优最坏情况鲁棒性,以及通过添加高斯噪声进行训练的简单正则化技术(抖动)是否能有效学习最坏情况鲁棒估计器。
动机:虽然深度神经网络在去噪等逆问题上表现优秀,但对对抗性或最坏情况扰动敏感,因此需要研究如何有效训练网络以实现最坏情况的鲁棒性。
方法:本文提出了一种新的分析方法来描述线性去噪的最优化$ell_2$-最坏情况鲁棒估计器,并证明了抖动可以产生最优的鲁棒去噪器。此外,还通过训练深度神经网络(U-nets)对自然图像去噪、去卷积和加速磁共振成像(MRI)进行了实证研究。
效果:实验结果表明,抖动显著增强了最坏情况的鲁棒性,但对于去噪之外的逆问题可能不是最优的。此外,我们的研究结果还表明,在经常含有轻微噪声的真实数据上进行训练,可以在一定程度上增强鲁棒性。
Zeroth-Order Methods for Nondifferentiable, Nonconvex, and Hierarchical Federated Optimization
Yuyang Qiu Uday Shanbhag Farzad Yousefian
研究问题:本文研究了联邦学习中的三个广泛适用的问题类别,包括非可微非凸优化、联邦双层优化和联邦最小最大问题。
动机:这些问题通常由于隐式目标函数缺乏闭型表达式而变得复杂。现有的研究受限于强假设,如需要隐式函数的可微性和L-光滑性。
方法:本文提出了一种随机平滑启用的零阶联邦学习方法,并利用卷积平滑和克拉克次微分计算法来推导计算近似克拉克稳定点的通信和迭代复杂度保证。同时,还设计了一种统一的随机隐式零阶联邦学习框架,明确给出了通信和迭代复杂度。
效果:该方法通过在局部步骤中使用延迟来跳过调用不精确的低级联邦学习查询,从而在解决分层问题时显著减少了通信开销。实验结果验证了该方法在非光滑和分层机器学习问题上的有效性。
Uniform-in-Time Wasserstein Stability Bounds for (Noisy) Stochastic Gradient Descent
Lingjiong Zhu Mert Gurbuzbalaban Anant Raj Umut Simsekli
研究问题:如何为随机优化算法证明Wasserstein稳定性界?
动机:现有的稳定性界需要不同的证明技术和数学工具,缺乏统一性。
方法:通过学习理论和实用概率的新颖联系,引入统一的指导原则来证明随机优化算法的Wasserstein稳定性界。
效果:该方法被成功地应用在随机梯度下降(SGD)上,对于强凸损失和非凸带噪音的损失,获得了时间一致的稳定性界。此外,该方法还被扩展到了其他流行的优化器上,并证明了在没有额外噪音的情况下,获得时间一致界需要满足遍历性。
What is the Inductive Bias of Flatness Regularization? A Study of Deep Matrix Factorization Models
Khashayar Gatmiry Zhiyuan Li Tengyu Ma Sashank J. Reddi Stefanie Jegelka Ching-Yao Chuang
研究问题:本研究旨在理解在深度学习线性网络中,最小化Hessian迹的解决方案的归纳偏置。
动机:过度参数化的神经网络研究表明,优化器的随机性具有隐式的正则化效果,可以最小化损失函数在其零损失解决方案族上的锐度(特别是其海森矩阵的迹)。然而,为什么以及何时扁平化正则化会导致更好的泛化仍然不清楚。
方法:本研究通过学习深度线性网络的线性测量,即所谓的“深度矩阵分解”,来理解最小化Hessian迹的解决方案的重要设置中的归纳偏置。我们展示了在测量上的标准受限等距属性(RIP)下,最小化Hessian迹近似等于最小化相应端到端矩阵参数的Schatten 1-范数(即所有层矩阵的乘积),这反过来又会导致更好的泛化。
效果:实验结果表明,这种方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Sketching Algorithms for Sparse Dictionary Learning: PTAS and Turnstile Streaming
Gregory Dexter Petros Drineas David Woodruff Taisuke Yasuda
研究问题:如何利用概略算法设计低空间流算法以及快速多项式时间近似方案(PTAS)。
动机:概略算法已被证明是设计低空间流算法和快速PTAS的强大方法。
方法:开发新技巧,将基于概略的方法扩展到稀疏字典学习和欧几里得k-均值聚类问题。
效果:在快速算法方面,为k-均值聚类问题设计了新的PTAS方法,并推广到稀疏字典学习问题的首个PTAS;在流算法方面,得到了字典学习和k-均值聚类的新上界和下界。
A Unified Approach for Maximizing Continuous DR-submodular Functions
Mohammad Pedramfar Christopher John Quinn Vaneet Aggarwal
研究问题:本文提出了一种最大化连续DR-submodular函数的统一方法,涵盖了多种设置和查询类型。
动机:现有的方法在处理单调和非单调函数、不同的凸集约束、确定性和随机性查询等方面存在限制或不足。
方法:本文的方法包括一个针对单调和非单调函数的Frank-Wolfe型离线算法,考虑了梯度和函数值两种查询方式,以及确定性和随机性查询。
效果:在所考虑的十六种情况中,本文的方法在九种情况下取得了新的/改进的结果,避免了三种情况下的昂贵投影计算,其余四种情况的性能与最先进的方法相当。特别是在随机函数值查询的情况下,本文的方法首次实现了带有 bandit 反馈的 regret bounds。
Polynomial-Time Linear-Swap Regret Minimization in Imperfect-Information Sequential Games
Gabriele Farina Charilaos Pipis
研究问题:在序列游戏中,理解最强大的理性概念可以在最坏的情况下有效实现是什么。
动机:现有的后悔最小化学习者在序列游戏中的理性概念仍有待提高。
方法:通过引入一个新的概念——无线性交换后悔,证明了存在一个可以有效接近的子集的扩展形式相关均衡——线性偏差相关均衡。
效果:该概念在非序列游戏中与无交换后悔一样强,在序列游戏中比无触发器后悔更强。
Faster Query Times for Fully Dynamic $k$-Center Clustering with Outliers
Leyla Biabani Annika Hennes Morteza Monemizadeh Melanie Schmidt
研究问题:在度量空间中,给定一个点集P和数字k、z,找出一个包含k个点的集合C*,使得P中除最多z个离群点外的所有点到其在C*中的最近中心的最远距离最小。
动机:在完全动态模型下,即插入和删除点的情军下,研究具有有界对数维的度量空间中的问题。
方法:利用分层数据结构维护点及其邻域,以高效地找到聚类。特别是,该数据结构可以随时查询以生成对于输入的k和z值的(3+ε)近似解决方案。
效果:与当前最先进的由Pellizzoni, Pietracaprina, and Pucci使用ε-O(dim)(k+z)^2logΔ查询时间来获得(3+ε)近似解的方法相比,该方法在查询时间和关于k和z的速度方面取得了显著的改进。
Transportability for Bandits with Data from Different Environments
Alexis Bellot Alan Malek Silvia Chiappa
研究问题:如何有效地优化智能代理的策略,基于可用的问题先验知识和可以采取的更多学习行动。
动机:大多数方法通常仅依赖于代理在一个环境(或多个密切相关的环境)中的实验。本文放松了这个假设,考虑了从批量数据和关于不同环境相关性的质量假设(以因果模型的形式表示)的组合来设计赌博算法。
方法:通过利用因果模型中可能出现的环境间的不变性,来持续改进学习。
效果:由此产生的赌博算法具有次线性遗憾界限,其明确依赖于一个项,该项捕获了相关环境对当前任务的信息量;并且可能比仅实验的赌博实例具有明显更低的遗憾。
FIRAL: An Active Learning Algorithm for Multinomial Logistic Regression
Youguang Chen George Biros
研究问题:本文旨在研究使用多项式逻辑回归的多类别分类的基于池的主动学习的理论和算法。
动机:为了解决有限样本下的风险控制问题,提出了利用Fisher信息比(FIR)进行主动学习的方法。
方法:通过理论分析证明了FIR可以上下界风险,并基于此提出了一种采用遗憾最小化来最小化FIR的主动学习算法。
效果:在合成数据集上验证了所提出的风险界限,并在MNIST、CIFAR-10和50类ImageNet等实验集上与其他五种方法进行了比较,发现该方法表现最好,能持续产生最小的分类错误。
A Unified Model and Dimension for Interactive Estimation
Nataly Brukhim Miroslav Dudík Aldo Pacchiano Robert E. Schapire
研究问题:本文研究了一种交互式学习的抽象框架,目标是通过学习者查询的点与目标的“相似性”来估计目标。
动机:现有的统计查询学习和结构化决策模型在处理复杂任务时存在一定的局限性,因此提出了一种新的交互式估计框架。
方法:引入了一种新的组合度量——Dissimilarity dimension,该度量在很大程度上捕捉了模型的可学习性。同时,提出了一种简单、通用且广泛应用的算法,并获得了多项式时间复杂度的遗憾和PAC泛化界。
效果:证明了该框架包含了统计查询学习和结构化决策模型两种经典学习模型,并在一些情况下通过Dissimilarity dimension参数显著改进了分析结果。
A Robust Exact Algorithm for the Euclidean Bipartite Matching Problem
Akshaykumar G Gattani Sharath Raghvendra Pouyan Shirzadian
研究问题:如何利用最小成本二分匹配算法来估计两个分布之间的Wasserstein距离。
动机:对于在欧几里得空间中的二维点集,最小成本二分匹配算法可以快速计算其最小成本匹配,而Wasserstein距离是衡量两个分布之间差异的重要指标。
方法:本文提出了一种新的算法,可以在$\tilde{O}(n^{2-\frac{1}{2d}}\Phi(n))$时间内计算出最小成本匹配,其中$d$是维度,$\Phi(n)$是动态加权最近邻数据结构的查询/更新时间。
效果:该算法是首个能在$\tilde{O}(n^{7/4}\log \Delta)$期望时间内处理具有实值坐标的随机点集的算法,且能扩展到任意维度。
Quantum speedups for stochastic optimization
Aaron Sidford Chenyi Zhang
研究问题:本文旨在解决在给定自然量子随机梯度查询器的情况下,最小化连续函数的问题。
动机:对于最小化Lipschitz凸函数的特殊情况,我们提供了两种新方法。这两种方法都获得了一种维度与精度之间的权衡,这是在经典计算中无法实现的,并且我们证明了其中一种方法在低维设置中是渐近最优的。此外,我们还提供了一种量子算法,用于以经典计算无法达到的速度计算平滑非凸函数的临界点。
方法:我们基于Cornelissen等人的多变量均值估计结果,并提供了一个通用的独立关注的量子方差减少技术。
效果:实验结果表明,我们的方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Certified Robustness via Dynamic Margin Maximization and Improved Lipschitz Regularization
Mahyar Fazlyab Taha Entesari Aniket Roy Rama Chellappa
研究问题:如何提高深度分类器对对抗性扰动的鲁棒性?
动机:现有的方法可能无法有效增加输入空间的边界,因此需要提出新的方法。
方法:提出了一种可微正则化器,它是数据点到分类边界距离的下界。该方法需要知道模型在某些方向上的Lipschitz常数,为此开发了一种可扩展的方法来计算神经网络Lipschitz常数的保证可微上界。
效果:在MNIST、CIFAR-10和Tiny-ImageNet数据集上的实验表明,与现有技术相比,该方法获得了有竞争力的改进结果。
Optimal Rates for Bandit Nonstochastic Control
Y. Jennifer Sun Stephen Newman Elad Hazan
研究问题:本文旨在解决最优控制中的基础和广泛研究的问题,即线性二次调节器(LQR)和线性二次高斯(LQG)控制。
动机:作者们对带有半对抗性扰动和时变对抗性强盗损失函数的LQR和LQG问题进行了研究。他们试图回答一个开放的问题,即是否可以实现紧的$\sqrt{T}$速率。
方法:作者们提出了一种具有记忆功能的强盗优化新方案,这是他们方法的核心组成部分。
效果:实验结果表明,他们的算法在强盗LQR和LQG问题上实现了最佳遗憾,达到了最优水平。
Federated Linear Bandits with Finite Adversarial Actions
Li Fan Ruida Zhou Chao Tian Cong Shen
研究问题:本文研究了联邦线性Bandits模型,其中M个客户端与中央服务器进行研究问题:本文研究了联邦线性Bandits模型,其中M个客户端与中央服务器进行通信以解决具有可能在不同客户端之间不同的有限对抗性动作集的线性上下文Bandits问题。
动机:为了解决有限的对抗性动作集的独特挑战,我们提出了FedSupLinUCB算法,该算法扩展了线性上下文Bandits中的SupLinUCB和OFUL算法的原则。
方法:我们证明了FedSupLinUCB实现了总遗憾为O(√dT),其中T是所有客户端的总拔臂次数,d是线性模型的环境维度。这符合最小最大下界,因此是最优的(高达多项式项)。我们研究了异步和同步两种情况,并表明通信成本可以分别控制在O(dM^2log(d)log(T))和O(√d^3M^3log(d))。
效果:FedSupLinUCB设计进一步扩展到两种场景:(1)方差自适应,其中可以实现总遗憾为O(√d∑t=1Tσ_t^2),其中σ_t^2是第t轮的噪声方差;(2)对抗性破坏,其中可以实现总遗憾为O(√dT+dC_p),其中C_p是总破坏预算。实验结果证实了理论分析,并在合成和真实世界数据集上展示了算法的有效性。
Computing Optimal Equilibria and Mechanisms via Learning in Zero-Sum Extensive-Form Games
Brian Hu Zhang Gabriele Farina Ioannis Anagnostides Federico Cacciamani Stephen Marcus McAleer Andreas Alexander Haupt Andrea Celli Nicola Gatti Vincent Conitzer Tuomas Sandholm
研究问题:本文旨在通过学习博弈计算最优均衡。
动机:现有的方法无法有效计算最优均衡,而最优均衡是零和博弈的最小最大平衡策略。
方法:将最优均衡转化为零和博弈的最小最大平衡策略,并应用零和博弈的学习技术,首次提出可以收敛到最优均衡的学习动态。
效果:在基准表格游戏中取得最先进的性能,并通过深度强化学习计算序列拍卖设计问题的最优机制,证明了该方法的实际可扩展性和灵活性。
Double Randomized Underdamped Langevin with Dimension-Independent Convergence Guarantee
Yuanshi Liu Cong Fang Tong Zhang
研究问题:本文主要研究了具有复合结构的对数凹分布的高维采样问题。
动机:为了解决高维采样中的问题,开发了一种双随机化技术,以实现快速阻尼Langevin算法和与维度无关的收敛保证。
方法:通过使用该双随机化技术,我们开发了一个快速阻尼Langevin算法,并证明了该算法具有总体迭代复杂度为$\tilde{\mathcal{O}}\left(\frac{\left(mathrm{tr}(H)\right)^{1/3}}{\epsilon^{2/3}}\right)$的特性,其中$H$是函数$f$的Hessian矩阵的上界,且不显式依赖于维度$d$。
效果:对于正则化数据的线性模型后验采样,我们的算法在收敛速度上表现出明显的优势,其收敛速度与维度无关,并且比之前的最佳已知结果快了$d^{1/3}$倍。这项分析为我们提供了一种更快的收敛率,并为高维采样带来了新的洞察。
Projection-Free Online Convex Optimization via Efficient Newton Iterations
Khashayar Gatmiry Zakaria Mhammedi
研究问题:本文旨在提出一种新的无投影在线凸优化(OCO)算法。
动机:传统的OCO算法需要执行欧几里得投影到凸集以确保迭代的可行性,而基于弗兰克-沃尔夫方法的替代算法则通过在$\mathcal{K}$上进行线性优化来避免昂贵的欧几里得投影,但其遗憾度低于投影基算法。
方法:本文提出了第三种算法,该算法使用自协方差障碍物输出近似牛顿迭代,自动确保可行性而无需投影。
效果:我们的主要贡献是展示了如何利用牛顿迭代的稳定性仅在少数几轮中计算逆Hessian矩阵,从而得到一种具有最新最优遗憾边界的高效无投影OCO算法。
On the Size and Approximation Error of Distilled Datasets
Alaa Maalouf Murad Tukan Noel Loo Ramin Hasani Mathias Lechner Daniela Rus
研究问题:本文旨在探讨数据集蒸馏的理论限制和保证,特别是与原始未压缩数据集相比,蒸馏研究问题:本文旨在探讨数据集蒸馏的理论限制和保证,特别是与原始未压缩数据集相比,蒸馏实现的额外风险有多大,以及蒸馏后的数据集有多大。
动机:尽管近年来在实证上取得了显著进展,但人们对数据集蒸馏的理论理解仍然有限。
方法:本文以理论的角度看待基于核岭回归(KRR)的数据集蒸馏方法,如核诱导点。通过将岭回归转换到随机傅立叶特征(RFF)空间,我们首次证明了对于平移不变内核,存在小尺寸的蒸馏数据集及其相应的额外风险。
效果:我们证明了在原始输入空间中存在一个小的实例集,其在RFF空间中的解与原始数据的解相吻合。我们还进一步展示了可以使用这个蒸馏的实例集生成一个KRR解,该解近似于在完整输入数据上优化的KRR解。这种集合的大小是输入集的RFF空间维度的线性函数,或者等效自由度的近线性函数,这是内核、数据点数量和正则化参数λ的函数。这个蒸馏集的误差界限也是λ的函数。我们在理论上验证了这些界限,并进行了实证验证。
Cascading Bandits: Optimizing Recommendation Frequency in Delayed Feedback Environments
Dairui Wang Junyu Cao Yan Zhang Wei Qi
研究问题:动态推荐系统中的延迟反馈是一个关键问题,其中反馈结果往往依赖于推荐的频率。
动机:大多数现有的在线学习文献都没有考虑到优化推荐频率的问题,并且认为每条成功推荐的信息带来的回报都是相等的。
方法:本文考虑了一个新颖的级联强盗设置,其中从选定列表中发送的每一条信息都会定期发送给用户。每当用户不喜欢某条信息时,她可能会以与推荐频率正相关的概率放弃系统。学习代理需要通过随机延迟反馈来学习底层消息吸引力概率和用户放弃概率。
效果:我们首先展示了在确定性情况下找到最优消息序列的动态规划解决方案,其中奖励允许随不同消息而变化。然后我们提出了一个基于UCB的多项式时间离线学习算法,并通过描述其遗憾界限来讨论其性能。对于在线设置,我们提出了一种允许为给定用户自适应内容的学习方法。AmEx数据集上的数值实验证实了我们的算法的有效性。
The Bayesian Stability Zoo
Shay Moran Hilla Schefler Jonathan Shafer
研究问题:本文旨在证明学习理论文献中许多稳定性定义彼此等价,并建立不同稳定性定义之间的对应关系。
动机:为了提高对近年来出现的一系列稳定性概念的理解和清晰度,需要对学习理论中的稳定性概念进行系统分类。
方法:通过区分分布依赖和分布独立的贝叶斯稳定性两种类型的定义,建立了各种定义之间的等价关系,包括近似差分隐私、纯差分隐私、可复制性、全局稳定性、完美泛化、TV稳定性、互信息稳定性、KL散度稳定性和Renyi散度稳定性。
效果:证明了增强学习规则稳定性的助推结果,为学习理论中的稳定性概念提供了更系统的分类,促进了对稳定性概念的理解和清晰度。
Optimistic Meta-Gradients
Sebastian Flennerhag Tom Zahavy Brendan O'Donoghue Hado van Hasselt András György Satinder Singh
研究问题:本研究探讨了基于梯度的元学习和凸优化之间的联系。
动机:我们发现带有动量的梯度下降是元梯度的一种特殊情况,并基于优化的最新结果,我们证明了单任务设置中元学习的收敛速度。
方法:我们通过最近提出的Bootstrapped Meta-Gradient(Flennerhag等人,2022)方法,展示了元学习中的乐观主义可以如何被捕获,从而提供了对其底层机制的深入理解。
效果:虽然元学习到的更新规则可以在常数因子内实现更快的收敛,但它不足以加速学习。相反,某种形式的乐观主义是必要的。
Learning Mixtures of Gaussians Using the DDPM Objective
Kulin Shah Sitan Chen Adam Klivans
研究问题:现有的扩散模型可以学习任何分布,但关于何时可以进行得分估计以及基于梯度的算法何时能成功,仍知之甚少。
动机:为了解决这一问题,我们首次对高斯混合模型这一最基本的分布族进行了有效的证明。
方法:我们在去噪扩散概率模型(DDPM)目标上使用随机初始化和预热启动的梯度下降法进行训练,并证明了其有效性。
效果:我们的实验结果表明,在这两种设置下,GD可以有效地恢复混合模型的真实参数。
Fast and Regret Optimal Best Arm Identification: Fundamental Limits and Low-Complexity Algorithms
Qining Zhang Lei Ying
研究问题:本文考虑了一个随机多臂赌博机问题,具有双重目标:(i)快速识别
动机:为了解决这一问题,我们首次对高斯混合模型这一最基本的分布族进行了有效的证明。
方法:我们在去噪扩散概率模型(DDPM)目标上使用随机初始化和预热启动的梯度下降法进行训练,并证明了其有效性。
效果:我们的实验结果表明,在这两种设置下,GD可以有效地恢复混合模型的真实参数。
Multiclass Boosting: Simple and Intuitive Weak Learning Criteria
Nataly Brukhim Amit Daniely Yishay Mansour Shay Moran
研究问题:本研究旨在将提升学习(boosting)推广到多类别设置。
动机:现有的提升学习方法主要针对二分类问题,对于多类别问题尚未有明确的解决方案。
方法:我们提出了一种新的弱学习条件,用于捕捉原始的“略优于随机猜测”的弱可学习性概念,并设计了一种简单且高效的提升算法,该算法不需要可实性假设,其样本和查询复杂度与类别数量无关。
效果:我们在列表PAC学习的背景下,利用这种新的提升技术进行了几种理论应用。首先,我们建立了与弱PAC学习的等价性。此外,我们还展示了一种针对列表学习的提升方法,并为多类别PAC学习和列表PAC学习的特性提供了新的证明。值得注意的是,与我们以前的工作相比,我们的技术能够产生更简化的算法和分析。
Regret Minimization via Saddle Point Optimization
Johannes Kirschner Alireza Bakhtiari Kushagra Chandak Volodymyr Tkachuk Csaba Szepesvari
研究问题:本研究旨在通过最小-最大程序对序列决策中的遗憾最小化进行样本复杂度的特征描述。
动机:在相应的鞍点游戏中,最小玩家针对选择导致大遗憾的混淆模型的敌对最大玩家优化采样分布。最近这个想法的实例是决策估计系数(DEC),它被证明在结构化的赌博和强化学习中提供了近乎紧密的最坏情况期望遗憾的上下界。
方法:通过重新参数化偏移DEC与置信半径并解决相应的最小-最大程序,我们推导出了一种随时可用的估计到决策算法(Anytime-E2D)的版本。重要的是,该算法在线优化探索-利用权衡,而不是通过分析。我们的公式为有限模型类和线性反馈模型带来了一个实用的算法。
效果:我们通过推导高维线性赌博的改进率来说明结果。最后,我们指出了与信息比、解耦系数和PAC-DEC的联系,并对E2D在简单示例上的性能进行了数值评估。
Model-Free Reinforcement Learning with the Decision-Estimation Coefficient
Dylan J Foster Noah Golowich Jian Qian Alexander Rakhlin Ayush Sekhari
研究问题:本文探讨了交互式决策制定的问题,包括结构化的bandits和具有一般函数近似的强化学习。
动机:Foster等人(2021)提出了决策估计系数,这是一种统计复杂度的度量,可以作为交互式决策制定的最优遗憾下界。同时,他们还开发了一种元算法——估计到决策,该算法在相同的数量上实现了上限。
方法:本文通过将估计到决策与张(2022)提出的一种特殊的"乐观"估计相结合,得到了比Foster等人(2021)更好的保证,以适应更宽松的估计误差概念。
效果:我们使用这种方法为具有值函数近似的无模型强化学习导出了遗憾界限,并给出了结构结果,展示了它在何种情况下可以帮助,以及在何种情况下不能帮助。
Partial Matrix Completion
Elad Hazan Adam Tauman Kalai Varun Kanade Clara Mohri Y. Jennifer Sun
研究问题:本文旨在解决矩阵补全问题,即通过给定的一组揭示(可能带有噪声)的条目来重构低秩矩阵。
动机:现有的方法虽然可以完成整个矩阵的补全,但由于采样分布的差异,补全条目的准确性可能会在矩阵中显著变化。
方法:我们提出了一种新的问题表述方式,即部分矩阵补全,目标是以高置信度完成大部分条目的补全。我们的算法有效地处理了未知和任意复杂的采样分布,确保所有补全条目的准确性和矩阵的充分覆盖。此外,我们还介绍了问题的在线版本,并提出了基于迭代梯度更新的低遗憾高效算法。
效果:我们的方法在初步的实证评估中表现出良好的效果。
On the Role of Entanglement and Statistics in Learning
Srinivasan A Vojtěch Havlíček Louis Schatzki
研究问题:理解在量子统计查询(QSQ)模型中,当学习模型可以获得纠缠测量、可分离测量和统计测量时,它们之间的关系。
动机:当前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:通过大规模文本语料库和知识图谱训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Universality laws for Gaussian mixtures in generalized linear models
Yatin Dandi Ludovic Stephan Florent Krzakala Bruno Loureiro Lenka Zdeborova
研究问题:本文研究了高维统计中基于高斯混合假设的一系列结果在经验风险最小化、贝叶斯不确定性量化、核方法和神经网络分离、随机特征的集成和波动等上下文中的应用。
动机:作者提供了这些结果适用于一类包含独立样本的数据集$(\mathbf{x_i},y_i, {i=1,\dots,n})$的严格证明,这类数据集来自混合分布$\sum_{c\in\mathcal{C}} rho_{c}P_{c}^{mathbf{x}}$。
方法:具体来说,作者考虑了广义线性模型的假设类$\hat{y} = F(\mathbf{\Theta}^{\top}\mathbf{x})$,并研究了从(a)最小化经验风险$\hat{R_n}^{(m)}(\mathbf{Theta}^{(m)};mathbf{X},\mathbf{y})$或(b)从相关的吉布斯测度$\exp(-\beta n \hat{R_n}^{(m)}(\mathbf{\Theta}^{(m)};\mathbf{X},\mathbf{y}))$采样得到的广义线性估计量族$(mathbf{\Theta}^{(1)}, \dots, \mathbf{\Theta}^{(M)})$的渐近联合统计特性。
效果:本文的主要贡献是刻画出在什么条件下,这一族的渐近联合统计特性仅(弱意义上)依赖于类条件特征分布$P_{c}^{\mathbf{x}}$的均值和协方差,从而证明了不同关注量的普适性,包括训练误差、泛化误差以及估计量的几何性质和相关性。
Optimal Algorithms for the Inhomogeneous Spiked Wigner Model
Alexander Pak Justin Ko Florent Krzakala
研究问题:本文研究了具有非均匀噪声特性的加性Wigner问题,目标是恢复通过非均匀低秩矩阵通道的信号。
动机:尽管信息理论性能已知,但主要关注算法问题。
方法:首先,为非均匀问题推导了一种近似消息传递算法(AMP),并证明其严格的状态演变与信息理论最优贝叶斯固定点方程相吻合。其次,推导了一种简单且高效的谱方法,该方法优于PCA,并与信息理论转变相匹配。
效果:实验结果表明,这种方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Robust Mean Estimation Without Moments for Symmetric Distributions
Gleb Novikov David Steurer Stefan Tiegel
研究问题:无需假设矩的情况下,稳健地估计均值或位置参数。
动机:目前计算效率高的算法依赖于强分布假设,如次高斯性或(可证明的)有界矩。此外,他们在重尾设置中实现的保证比已知协方差的次高斯分布弱。
方法:我们展示对于一大类对称分布,可以在重尾情况下达到与高斯设置相同的误差。我们研究的分布包括任意一维对称分布的产品,如产品柯西分布,以及椭球分布,这是高斯分布的广泛推广。
效果:对于已知协方差矩阵的产品分布和椭球分布,我们展示了给定一个ε-损坏的样本,我们可以以至少1-δ的概率估计其位置,误差为O(ε√log(1/ε)),使用dlog(d) + log(1/δ)/ε²log(1/ε)个样本。这个结果与高斯分布的最佳已知保证和已知SQ下界相匹配(最多到log(d)因子)。对于未知协方差的椭球分布,我们提出了一系列渐近最优误差的高效算法。具体来说,对于每一个k∈N,我们设计了一个使用时间样本为O(d^k)的估计器,实现误差O(ε^{1-\frac{1}{2k}})。这在假设可证明有界矩阶数高达k时匹配了误差和运行时间保证。对于未知协方差,这样的o(ε)误差界限甚至对(一般)次高斯分布也未知。
Multi-task Representation Learning for Pure Exploration in Bilinear Bandits
Subhojyoti Mukherjee Qiaomin Xie Josiah P. Hanna Robert D Nowak
研究问题:多任务表示学习在双线性Bandits中的纯探索问题。
动机:在双线性Bandits中,一个动作由来自两种不同实体类型的一对手臂组成,奖励是手臂已知特征向量的双线性函数。在多任务双线性Bandits问题中,我们的目标是找到多个共享低维线性表示的最优动作。
方法:我们提出了GOBLIN算法,该算法使用实验设计方法优化样本分配,以学习全局表示并最小化识别单个任务中最优手臂所需的样本数量。
效果:我们的研究首次对双线性Bandits中的共享表示进行纯探索的样本复杂度分析。结果显示,通过学习跨任务的共享表示,我们实现了比独立解决任务的传统方法显著改善的样本复杂度。
A Sublinear-Time Spectral Clustering Oracle with Improved Preprocessing Time
Ranran Shen Pan Peng
研究问题:设计一个适用于强可聚类图的亚线性时间谱聚类查询算法。
动机:针对具有强烈可聚性的图,设计一种能在亚线性时间内预处理并完成聚类成员查询的算法。
方法:通过降低内、外电导的差距和优化预处理时间,实现对图的预处理和查询回答,得到与真实聚类相近的结果。
效果:虽然会稍微增加误分类比例,但能处理内、外电导差距不大或预处理时间较长的情况,且对随机边删除具有一定的鲁棒性。在合成网络上进行的实验验证了理论界限。
Transformers learn to implement preconditioned gradient descent for in-context learning
Kwangjun Ahn Xiang Cheng Hadi Daneshmand Suvrit Sra
研究问题:本文探讨了Transformers是否可以通过训练随机问题实例来学习实现算法。
动机:尽管已有研究表明Transformers具有强大的上下文学习能力,可以模拟梯度下降等算法,但目前还不清楚它们是否可以通过训练随机问题实例来学习这些算法。
方法:通过对线性Transformers在随机线性回归问题上的损失景观进行分析,我们证明了训练目标的全局最小值实现了预条件梯度下降的一次迭代。
效果:对于单个注意力层,我们证明了训练目标的全局最小值实现了预条件梯度下降的一次迭代。对于具有k个注意力层的Transformer,我们证明了训练目标的某些关键点实现了k次预条件梯度下降的迭代。
Responsible AI (RAI) Games and Ensembles
Yash Gupta Runtian Zhai Arun Suggala Pradeep Kumar Ravikumar
研究问题:本文旨在研究人工智能的社会影响,包括公平性、鲁棒性和安全性等问题。
动机:在许多目标中,学习者试图在其预定义分布集(称为不确定性集)上最小化其最坏情况损失,其中常见的例子是经验分布的扰动版本。换句话说,上述问题可以写成这些不确定性集上的最小-最大问题。
方法:本文提供了一个研究这些问题的一般框架,即负责任的人工智能(RAI)游戏。我们提供了两类解决这些游戏的算法:(a)基于游戏的游戏算法,和(b)贪心阶段估计算法。前者受在线学习和博弈论的启发,而后者则受到经典统计文献关于增强和回归的启发。
效果:我们通过实验证明,我们的技术在解决几个RAI问题上具有适用性和竞争性能,特别是在子群体转移方面。
Tackling Heavy-Tailed Rewards in Reinforcement Learning with Function Approximation: Minimax Optimal and Instance-Dependent Regret Bounds
Jiayi Huang Han Zhong Liwei Wang Lin Yang
研究问题:在奖励为重尾分布(即只有有限的$(1+\epsilon)$阶矩)的强化学习中,是否存在对大规模状态-动作空间进行样本或时间高效的算法?
动机:尽管许多工作集中在设计用于奖励均匀有界的强化学习的高效算法,但在奖励为重尾分布的情况下,对于大规模状态-动作空间是否存在样本或时间高效的算法仍然是一个开放的问题。
方法:本文提供了一个研究这些问题的一般框架,即负责任的人工智能(RAI)游戏。我们提供了两类解决这些游戏的算法:(a)基于游戏的游戏算法,和(b)贪心阶段估计算法。前者受在线学习和博弈论的启发,而后者则受到经典统计文献关于增强和回归的启发。
效果:我们通过实验证明,我们的技术在解决几个RAI问题上具有适用性和竞争性能,特别是在子群体转移方面。
Memory-Constrained Algorithms for Convex Optimization
Moise Blanchard Junhui Zhang Patrick Jaillet
研究问题:提出一种递归切割平面算法族,解决具有约束记忆的可行性问题,也可应用于一阶凸优化。
动机:为了找到半径为ε的球内的一点或在单位球上将1-Lipschitz凸函数最小化到精度ε——我们的算法使用了O(d^2/p ln 1/ε)位内存,并进行了O((C d/p ln 1/ε)^p)次查询。该算法族由参数p∈[d]定义,并在次多项式区域ln1/ε>ln d中提供了查询复杂度/内存权衡。
方法:算法将d个变量分为p个块,并按顺序优化各块,使用Vaidya方法的变体构造近似分离向量。
效果:在ε≤1/√d的范围内,我们的算法实现了信息理论最优内存使用和梯度下降的查询复杂度改进。
Non-Convex Bilevel Optimization with Time-Varying Objective Functions
Sen Lin Daouda Sow Kaiyi Ji Yingbin Liang Ness Shroff
研究问题:本文旨在解决当前非凸双层优化在处理在线应用中的动态函数和流数据时的问题。
动机:目前的双层优化算法主要针对离线数据集和静态函数,对于具有动态函数和流数据的在线应用效果不佳。
方法:提出了一种单循环在线双层优化器(SOBOW),通过窗口平均最近一次的超梯度估计来更新外层决策,无需知道先前的函数。
效果:实验证明,SOBOW在多个领域都表现出了良好的效果,且在满足一定条件下,可以实现次线性双层局部遗憾。
Kernel-Based Tests for Likelihood-Free Hypothesis Testing
Patrik Robert Gerber Tianze Jiang Yury Polyanskiy Rui Sun
研究问题:在已知两个平衡类别的$n$个观察值的情况下,如何对额外标记的$m$个输入进行分类,这些输入全部属于这两个类别中的一个。
动机:当未标记样本来自两个类别的混合时,即在实践中经常遇到的情况,现有的方法可能无法很好地处理。因此,需要研究如何处理这种情况。
方法:通过引入最大均值差异(MMD)分离,研究了非参数类密度的最小最大样本复杂度,并使用神经网络参数化的内核在两个任务上进行了实证性能研究:检测希格斯玻色子和在CIFAR-10图像中检测植入的DDPM生成的图像。
效果:实验结果证实了理论预测的不对称$m$与$n$之间的权衡关系的存在。
Initialization Matters: Privacy-Utility Analysis of Overparameterized Neural Networks
Jiayuan Ye Zhenyu Zhu Fanghui Liu Reza Shokri Volkan Cevher
研究问题:本文旨在分析随机化机器学习算法中模型的过度参数化如何影响其训练数据的信息泄露。
动机:为了解决深度学习模型在训练过程中可能出现的信息泄露问题,作者通过理论分析探讨了模型参数化、初始化和网络深度等因素对信息泄露的影响。
方法:通过对模型分布的KL散度进行理论分析,研究了初始化分布、网络宽度和深度等因素对隐私损失的影响。同时,还证明了在固定KL隐私预算下的经验风险上界。
效果:研究发现,在某些初始化设置下(如LeCun和Xavier),随着网络深度的增加,隐私保护性能会提高;而在其他初始化设置下(如He和NTK),随着网络深度的增加,隐私保护性能会降低。这一发现揭示了隐私保护与网络深度之间复杂的相互关系,这取决于所选择的初始化分布。
Implicit Regularization in Over-Parameterized Support Vector Machine
Yang Sui Xin HE Yang Bai
研究问题:本文旨在设计一种无需正则化的高维支持向量机(SVM)算法,通过结合过参数化和Nesterov的平滑方法,为所引发的隐式正则化现象提供理论保证。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:通过整合过参数化与Nesterov的平滑方法,构建了一个过度参数化的hinge损失函数,并利用这个损失函数上的无正则化梯度下降法来估计真实的参数。
效果:实验结果表明,该无正则化梯度下降法在适当的初始值、步长和平滑度参数选择下,实现了接近最优的统计收敛速度。此外,通过一系列的数值实验验证了理论发现,并将该方法与显式正则化进行了比较。结果展示了在稀疏SVM中采用通过梯度下降法结合过参数化的隐式正则化的优势。
Robustness Guarantees for Adversarially Trained Neural Networks
Poorya Mianjy Raman Arora
研究问题:本研究旨在通过对抗性训练,使两层神经网络变得更健壮。
动机:为了解决神经网络在面对对抗性攻击时的脆弱性问题,提出了一种优化方法。
方法:通过使用投影梯度下降法(PGD)在训练过程中实施对抗性攻击,并最大化关于原点的替代损失的下界,以实现对$0/1$-loss的最小化。
效果:该方法不仅为内部循环的PGD攻击提供了收敛保证,而且在数据线性可分的情况下,还为端到端的对抗性训练提供了精确的迭代复杂度结果。实验结果也验证了理论分析的正确性。
Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning
Stefan Stojanovic Yassir Jedra Alexandre Proutiere
研究问题:本文研究了强化学习中具有低秩结构的矩阵估计问题。
动机:在低秩的bandits和MDPs中,需要恢复的矩阵指定了预期的臂部奖励或MDP的转换核,每个矩阵条目都包含重要信息,因此需要寻找具有低条目预测误差的估计方法。
方法:研究了基于谱的简单矩阵估计方法,并展示了它们如何有效地恢复矩阵的奇异子空间,并表现出接近最小的条目预测误差。
效果:这些新的低秩矩阵估计结果使得有可能设计出充分利用底层低秩结构的强化学习算法。文中提供了两个这样的算法示例:一个是用于低秩bandit问题的遗憾最小化算法,另一个是用于低秩MDP的最佳策略识别算法,两者都能产生最先进的性能保证。
An Alternative to Variance: Gini Deviation for Risk-averse Policy Gradient
Yudong Luo Guiliang Liu Pascal Poupart Yangchen Pan
研究问题:限制强化学习中策略返回的方差是风险厌恶选择的一种常见方式,但这种方法存在数值敏感性和阻碍策略学习等局限性。
动机:本文旨在寻找一种替代的风险度量方法,以解决传统方差限制方法的问题。
方法:提出了使用基尼系数偏差作为风险度量的新方法,并推导出了最小化该风险度量的策略梯度算法。
效果:在明确定义风险厌恶的领域中进行的实证评估表明,该方法能够缓解方差限制方法的局限性,并在其他方法无法学习到合理策略的情况下,实现高回报和低风险。
Exploiting hidden structures in non-convex games for convergence to Nash equilibrium
Iosif Sakos Emmanouil-Vasileios Vlatakis-Gkaragkounis Panayotis Mertikopoulos Georgios Piliouras
研究问题:如何利用机器学习应用中的非合作博弈的纳什均衡来表示系统的期望运行状态。
动机:尽管许多感兴趣的情况具有潜在的凸结构,但存在高度非凸的损失景观,这可能阻碍了向均衡点的收敛。
方法:本文提出了一种灵活的一阶方法,该方法成功地利用了这种“隐藏结构”,并在玩家的控制变量与游戏的隐藏、凸结构层之间的转换连接上实现了最小假设下的收敛。这种方法被称为预条件隐藏梯度下降(PHGD),它依赖于与自然梯度方法相关的明智选择的梯度预条件方案。
效果:我们为确定性和随机环境提供了明确的收敛速度保证,并且我们没有对游戏隐藏结构的可分性做出任何假设。
$p$-value Adjustment for Monotonous, Unbiased, and Fast Clustering Comparison
Kai Klede Thomas Altstidl Dario Zanca Bjoern Eskofier
研究问题:本文旨在解决现有聚类比较指标存在的类型II偏差问题,并提出一种无偏且单调的聚类比较方法。
动机:目前常用的聚类比较指标如调整兰德指数和调整互信息存在类型II偏差,而标准化互信息虽然消除了这种偏差,但又存在不符合直觉的非单调性和计算效率低下的问题。
方法:本文提出了$p$-值调整兰德指数($\operatorname{PMI}_2$),这是第一种无类型II偏差且可证明单调的聚类比较方法。$\operatorname{PMI}_2$具有快速近似法,其性能优于标准化互信息。
效果:在合成基准测试中,我们证明了$\operatorname{PMI}_2$的无偏聚类选择、近似质量和运行时效率。在图像和社交网络数据集的实验中,我们展示了$\operatorname{PMI}_2$如何帮助实践者选择更好的聚类和社区检测算法。
Dynamic Non-monotone Submodular Maximization
Kiarash Banihashem Leyla Biabani Samira Goudarzi MohammadTaghi Hajiaghayi Peyman Jabbarzade Morteza Monemizadeh
研究问题:如何扩展全动态结果到非单调子模态最大值问题?
动机:最大化子模态函数在机器学习的许多应用中越来越重要,如数据摘要、推荐系统和特征选择。同时,人们对子模态最大化和动态算法的兴趣日益增长。
方法:通过将非单调子模态函数最大化问题转化为单调子模态函数最大化问题,我们得到了第一个解决非单调子模态函数最大化问题的动态算法。
效果:我们的算法保持了解决方案的$(8+epsilon)$近似度,每次更新使用预期的摊销$O(\epsilon^{-3}k^3\log^3(n)\log(k))$或$O(\epsilon^{-1}k^2\log^3(k))$查询,并在视频摘要和最大切割问题上展示了其优势。
Utilitarian Algorithm Configuration
Devon R. Graham Kevin Leyton-Brown Tim Roughgarden
研究问题:如何配置启发式算法以最大化其对终端用户的效用,同时提供性能的理论保证。
动机:现有的配置过程寻求最小化预期运行时间的设置,但最近的理论研究认为,期望的运行时间最小化无法捕捉到算法设计者的偏好。
方法:提出了一种新的非平凡程序,用于配置启发式算法以最大化其对终端用户的效用,同时提供了性能的理论保证。
效果:证明了这些配置过程的运行时间上限与理论下界相似,同时也通过实证展示了它们的表现。
Improving the Knowledge Gradient Algorithm
Le Yang Siyang Gao Chin Pang Ho
研究问题:知识梯度算法在最佳手臂识别问题上的应用存在局限性,并非最优策略。
动机:为了提高知识梯度算法的性能,提出改进的知识梯度(iKG)算法。
方法:通过引入一步前瞻的方式,选择最有可能选中最佳手臂的测量方式,代替原有知识梯度算法中选择能最大一步提升对最佳手臂均值估计的测量方式。
效果:实验证明,改进的知识梯度算法在各种变种的最佳手臂识别问题上都表现出优越性能,且易于扩展应用。
Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage
Masatoshi Uehara Nathan Kallus Jason D. Lee Wen Sun
研究问题:本文旨在解决离线强化学习中的问题,即只使用离线数据进行训练。
动机:现有的离线强化学习算法需要对状态和动作空间进行全面覆盖,而我们提出了一种只需要部分覆盖的基于值的算法,并给出了PAC保证。
方法:我们提出了一种新的算法,通过最小最大损失函数来准确估计软Q函数和Q函数,并给出了-收敛保证。
效果:实验结果表明,我们的算法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Optimal Preconditioning and Fisher Adaptive Langevin Sampling
Michalis Titsias
研究问题:如何优化Langevin扩散的预处理?
动机:通过分析优化预期平方跳距,得到最优预处理。
方法:使用逆Fisher信息协方差矩阵作为最优预处理,该矩阵由目标下的平均对数目标梯度的外积计算得出。将此结果应用于Metropolis调整的Langevin算法(MALA),并推导出一种从算法运行过程中产生的梯度历史中学习预处理的计算效率高的自适应MCMC方案。
效果:在多个实验中,所提出的算法在高维空间中非常稳健,并且显著优于其他方法,包括一个密切相关的自适应MALA方案,该方案使用标准的自适应MCMC以及位置相关的Riemannian流形MALA采样器来学习预处理。
Near-optimal learning with average Hölder smoothness
Guy Kornowski Steve Hanneke Aryeh Kontorovich
研究问题:如何通过平均Hölder平滑度来改进经典最坏情况的Hölder常数。
动机:当前函数的"有效平滑度"测量方法对底层分布敏感,可能远小于其经典的“最坏情况”Hölder常数。
方法:我们考虑了可实现和不确定(有噪声)的回归设置,并证明了基于平均Hölder平滑度的上下风险界限;这些比率在平均Lipschitz平滑度的特殊情况下也优于以前已知的比率。
效果:从算法的角度来看,由于我们的平滑度概念是根据未知的底层分布定义的,学习者没有明确的函数类表示,因此无法执行ERM。然而,我们提供了不同的学习算法,实现了几乎最佳的学习速度。我们的研究结果在任何有界度量空间中都适用,并以它的固有几何学为依据进行表述。总的来说,我们的研究结果表明,经典的最坏情况Hölder平滑度概念可以基本上被其平均值所取代,从而产生更精确的保证。
Decentralized Matrix Sensing: Statistical Guarantees and Fast Convergence
Marie Maros Gesualdo Scutari
研究问题:我们探索了从近各向同性线性测量中解决矩阵感测问题的网络代理模型,该模型没有集中节点。
动机:我们首次为解决低秩矩阵估计的非凸Burer-Monteiro类型分解的分散梯度算法提供了统计和计算/通信保证。
方法:通过小的随机初始化,该算法表现出近似的两阶段收敛:(i)一个光谱阶段,将迭代列空间与底层低秩矩阵对齐,模仿集中式光谱初始化(在网络中不能直接实现);(ii)一个局部细化阶段,使迭代偏离某些退化鞍点,同时确保快速收敛到底层低秩矩阵。
效果:我们分析的核心是一个新颖的“在网络内”限制等距性质,它适应了优化的分散特性,揭示了样本复杂度与网络连接、拓扑和通信复杂度之间的有趣互动。
An Improved Relaxation for Oracle-Efficient Adversarial Contextual Bandits
Kiarash Banihashem MohammadTaghi Hajiaghayi Suho Shin Max Springer
研究问题:本文旨在解决一种对抗性上下文班次问题,其中上下文是已知分布下的序贯抽取,而成本序列是由在线对手选择的。
动机:现有的算法在处理这种问题时存在效率低下的问题,需要大量的优化查询。
方法:我们提出了一种高效的放松方法,该方法通过减少优化查询的次数,提高了算法的效率。
效果:实验结果表明,我们的算法的遗憾界限比之前的最佳结果有所提高,并且每轮最多只需进行$O(K)$次离线优化查询,其中$K$表示行动的数量,$T$表示轮数,$\Pi$表示策略集。
Learning Cuts via Enumeration Oracles
Daniel Thuerck Boro Sofranac Marc Pfetsch Sebastian Pokutta
研究问题:如何有效地解决大规模整数规划问题,并开发出有效的切割平面方法。
动机:当前大多数的切割平面方法依赖于显式规则来生成有效的不等式,以将目标点与可行集分离。然而,这些方法需要通过求解线性规划问题来获得超平面,效率较低。
方法:本文提出了一种新的通用方法,通过在减少的维度中隐式访问枚举查询来学习底层多面体的面。这是通过将查询嵌入到一种变体的弗兰克-沃尔夫算法中实现的,该算法能够生成强大的切割平面,从而将枚举查询转化为分离查询。
效果:通过针对多维背包问题的案例研究,证明了该方法的有效性。
On the Convergence of No-Regret Learning Dynamics in Time-Varying Games
Ioannis Anagnostides Ioannis Panageas Gabriele Farina Tuomas Sandholm
研究问题:大多数关于游戏中学习的研究都集中在基础重复游戏不随时间变化的限制性设置上,对于动态多代理设置中无遗憾学习算法的收敛性了解甚少。
动机:本文旨在描述乐观梯度下降(OGD)在时间变化游戏中的收敛性。
方法:通过建立自然游戏序列变化度量参数化下的零和游戏的框架,得出OGD平衡差距的锐利收敛界限,并建立了强凸性-凹性下的改进二阶变化界限。
效果:结果还适用于通过相关均衡的双线性公式的时间变化广义求和多人游戏,这对元学习和获得改进的变化依赖遗憾界限有新的启示,解决了先前论文中未解决的问题。最后,我们利用我们的框架对静态游戏的动态遗憾保证提供了新的见解。
Dynamic Regret of Adversarial Linear Mixture MDPs
Long-Fei Li Peng Zhao Zhi-Hua Zhou
研究问题:本文研究了具有对抗性全信息奖励和未知转换核的情境异质马尔可夫决策过程(MDP)中的强化学习。
动机:在面对线性混合MDPs,即其转换核为线性混合模型时,如何设计出性能优越的强化学习算法,以应对非平稳测量和未知转移核的问题。
方法:提出了一种新的算法,该算法在已知非平稳测量$P_T$的情况下,可以获得$widetilde{\mathcal{O}}\big(\sqrt{d^2 H^3K} + \sqrt{H^4(K+P_T)(1+P_T)}big)$的动态遗憾,这比之前的最佳已知动态遗憾有了改进。同时,当非平稳测量$P_T$未知时,设计了一个在线集成算法,该算法具有元基结构,并被证明可以达到$\widetilde{\mathcal{O}}\big(\sqrt{d^2 H^3K} + \sqrt{H^4(K+P_T)(1+P_T) + H^2 S_T^2}\big)$的动态遗憾。
效果:实验结果表明,新提出的算法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
On the Interplay between Social Welfare and Tractability of Equilibria
Ioannis Anagnostides Tuomas Sandholm
研究问题:本文探讨了在算法博弈论中,如何通过无遗憾学习算法来逼近纳什均衡,以实现高效率。
动机:尽管计算效率和社会福祉(即效率)是算法博弈论中的两个基本但通常相互独立的考虑因素,但本文证明了当可以通过Roughgarden的平滑性论证保证近似完全效率时,纳什均衡可以通过一系列无遗憾学习算法来逼近,从而实现快速和分散的计算。
方法:本文利用这种联系,在大型游戏中获得了新的收敛结果——其中玩家数量n远大于1——这是通过在极限中完全效率的平滑性这一众所周知的性质来实现的。
效果:令人惊讶的是,我们的框架统一了不同类别问题的均衡计算,包括战略敏感性消失的游戏和两人零和游戏,同时揭示了一条被忽视的途径,即平滑性和优化文献中被称为Minty属性的一个熟知条件之间的等价性。最后,我们证明了一系列无遗憾动态可以达到比平滑性框架更好的福利界限,同时确保收敛到粗糙相关均衡集。这是通过最近由Piliouras等人引入的有洞察力的镜像下降算法来实现的。
Fully Dynamic $k$-Clustering in $\tilde O(k)$ Update Time
Sayan Bhattacharya Martin Nicolas Costa Silvio Lattanzi Nikos Parotsidis
研究问题:开发一种$O(1)$近似的全动态算法,解决度量空间上的$k$-中位数和$k$-均值问题。
动机:当前的解决方案在查询时间和更新时间上存在效率问题,需要更高效的算法。
方法:通过引入一个新颖的框架,实现了对$k$-中位数和$k$-均值问题的高效处理。
效果:实验证明,该算法在查询时间和更新时间上均优于现有技术,且在动态$k$-中位数问题上表现优秀。同时,还提供了动态$k$-中位数问题的下界,为后续研究提供了理论依据。
ReHLine: Regularized Composite ReLU-ReHU Loss Minimization with Linear Computation and Linear Convergence
Ben Dai Yixuan Qiu
研究问题:本文提出了一种新的算法ReHLine,用于最小化一组具有凸分段线性二次损失函数和可选线性约束的正则化ERM。
动机:当前的优化算法在处理复杂的特定领域问题时,如公平支持向量机、弹性网正则化分位数回归、Huber最小化等,往往效率低下。
方法:我们提出了一种新颖的算法ReHLine,该算法可以有效地处理损失函数、正则化和约束的多样化组合,特别适合处理复杂领域的问题。此外,ReHLine还具有可证明的线性收敛速度,并且每次迭代的计算复杂度与样本大小呈线性比例。
效果:实验结果表明,ReHLine在大规模数据集上显著优于通用优化求解器,并在SVMs、Huber最小化和平滑SVMs等方面超越了专门的求解器,显示出了出色的灵活性和效率。
Efficient Batched Algorithm for Contextual Linear Bandits with Large Action Space via Soft Elimination
Osama Hanna Lin Yang Christina Fragouli
研究问题:本文旨在为具有大动作空间的上下文线性Bandits提供第一个有效的批量算法。
动机:现有的批量算法依赖于动作消除,对于大的动作集不可行,而我们的算法仅使用动作集上的线性优化查询来设计策略。
方法:我们提出了一种新颖的软消除方法,通过在每个批次中“塑造”动作集,我们可以有效地识别(接近)最优动作。
效果:实验结果表明,我们的算法可以实现高概率的$\tilde{O}(sqrt{T})$遗憾上限,并使用$O(\log\log T)$个批次,匹配批次数量的下界。当专门用于线性Bandits时,我们的算法可以实现高概率的差距依赖遗憾上界$\tilde{O}(1/Delta_{\min})$,其中$\Delta_{\min}$是次优手臂和最优手臂之间的最小奖励差距。
Feature learning via mean-field Langevin dynamics: classifying sparse parities and beyond
Taiji Suzuki Denny Wu Kazusato Oko Atsushi Nitanda
研究问题:现有的关于平均场神经网络的优化效率保证是否会导致改善的泛化性能和样本复杂度,因为存在特征学习。
动机:尽管平均场神经网络在特征学习方面表现出色,但现有的优化算法如平均场朗之万动力学(MFLD)的效果尚不明确。
方法:通过研究一类二分类问题的统计和计算复杂性,我们提出了一种新的分析框架,该框架避免了常见的范数控制,而是利用了MFLD优化参数分布而非参数本身的观点。
效果:我们的框架应用于学习k-稀疏奇偶函数,结果表明,与核方法不同,由MFLD优化的两层神经网络在样本复杂度上实现了度k与维度依赖指数的“解耦”。
On the Last-iterate Convergence in Time-varying Zero-sum Games: Extra Gradient Succeeds where Optimism Fails
Yi Feng Hu Fu Qun Hu Ping Li Ioannis Panageas bo peng Xiao Wang
研究问题:本文探讨了在时间变化的环境中,各种算法的最终迭代行为。
动机:尽管已有的研究在固定环境中得出了一些算法的最终迭代收敛性,但在时间变化的环境中,这些算法的行为仍然不清楚。
方法:本文通过分析周期性和收敛性扰动两种类型的未约束的时间变化双线性零和游戏,来研究各种算法的最终迭代行为。
效果:研究发现,在周期性游戏中,EG会收敛,而OGDA和动量方法会发散;在收敛性扰动的游戏中,只要游戏本身的稳定速度比1/t快,所有算法都会收敛。
An Adaptive Algorithm for Learning with Unknown Distribution Drift
Alessio Mazzetto Eli Upfal
研究问题:开发和分析一种学习未知分布漂移的通用技术。
动机:对于来自漂移分布最后T步的独立观测序列,我们的算法能够适应当前T时刻的分布进行学习。
方法:不需要预先了解漂移的大小,而是通过样本数据进行自适应调整。
效果:在二元分类和线性回归两种基本学习场景中展示了该技术的应用,其学习误差优于依赖漂移宽松界限的算法。
Regression with Cost-based Rejection
Xin Cheng Yuzhou Cao Haobo Wang Hongxin Wei Bo An Lei Feng
研究问题:本文旨在解决回归问题中基于成本的拒绝学习,即在预测和拒绝之间找到平衡,避免关键的错误预测。
动机:以往的研究主要关注分类设置的成本基础拒绝,无法处理连续和无限的回归目标空间。
方法:我们首先为这个问题设定了预期风险,然后推导出贝叶斯最优解,发现当均方误差用作评估指标时,最优模型应拒绝对方差大于拒绝成本的实例进行预测。我们还提出了一个考虑拒绝作为二元分类的替代损失函数来训练模型,并提供了模型一致性的条件。
效果:大量的实验表明,我们提出的方法非常有效。
Estimating the Rate-Distortion Function by Wasserstein Gradient Descent
Yibo Yang Stephan Eckstein Marcel Nutz Stephan Mandt
研究问题:本文旨在提出一种新的方法,通过最优传输的角度来估计率失真函数。
动机:传统的Blahut-Arimoto算法需要预先固定再生分布的支持,而我们的方法通过移动粒子来学习最优再生分布的支持。
方法:我们提出了一种基于Wasserstein梯度下降的算法,该算法通过移动粒子来学习最优再生分布的支持。
效果:实验结果表明,我们的方法在低速率源上获得了与最先进的神经网络方法相当或更紧的界,同时所需的调整和计算工作量大大减少。我们还强调了该方法与最大似然去卷积的联系,并引入了一类新的已知解的测试案例。
First- and Second-Order Bounds for Adversarial Linear Contextual Bandits
Julia Olkhovskaya Jack Mayo Tim van Erven Gergely Neu Chen-Yu Wei
研究问题:在对抗性线性上下文环境中,如何最小化预期的遗憾。
动机:现有的方法在处理固定已知分布的上下文时,其最坏情况的预期遗憾会随着时间、维度和选项数量的增加而增加。
方法:通过使用截断的连续指数权重算法在概率单纯形上进行分析,并利用一种新的与无上下文的线性环境的联系,得出了关于学习者损失累积二阶矩和最佳策略累积损失的新的结果。
效果:当环境相对温和时,这些结果可以改进最坏情况的遗憾,因为它们可能显著小于T。
Optimal Convergence Rate for Exact Policy Mirror Descent in Discounted Markov Decision Processes
Emmeran Johnson Ciara Pike-Burke Patrick Rebeschini
研究问题:本文旨在解决强化学习中策略迭代的不稳定性问题,并探讨了在精确策略评估下,如何通过无规则的策略镜像下降(PMD)算法实现策略改进步骤的规范化。
动机:由于策略迭代在非精确策略评估下的不稳定性,作者提出了无规则的策略镜像下降(PMD)算法,该算法对策略改进步骤进行了规范化,而未对目标函数进行规范化。
方法:通过精确策略评估,作者将策略迭代与PMD联系起来,并证明在自适应步长下,未经规范的PMD算法族可以实现维度自由的$\gamma$速率。
效果:作者的研究首次将PMD与速率最优性和步长必要性联系起来。此外,作者还将其分析扩展到非精确设置,并在生成模型下为未经规范的PMD建立了第一个维度优化的样本复杂度,从而超越了现有的最佳结果。
On the Convergence of CART under Sufficient Impurity Decrease Condition
Rahul Mazumder Haoyue Wang
研究问题:本文旨在研究CART在回归设置下的收敛速度。
动机:决策树是一种灵活的机器学习方法,其成功应用于众多领域。通常使用CART以递归贪婪的方式拟合决策树。本研究探讨了CART在满足充分不纯度减少(SID)条件时的预测误差上限。
方法:首先,我们证明了在满足SID条件下,CART的预测误差上界。然后,通过实例说明该误差边界无法通过常数或对数因子进一步改进。其次,我们引入了几个易于检查的SID条件的充分条件。特别是,当组件函数满足局部倒Poincare不等式时,我们发现加性模型可以满足SID条件。
效果:实验结果表明,在满足SID条件下,CART的预测误差上界得到了改进。此外,我们还发现一些熟悉的非参数估计函数类也满足这一概念。
Proportional Response: Contextual Bandits for Simple and Cumulative Regret Minimization
Sanath Kumar Krishnamurthy Ruohan Zhan Susan Athey Emma Brunskill
研究问题:如何在随机上下文环境中设计出一种计算效率高的算法,以最小化累积遗憾和简单遗憾。
动机:在许多应用中,如医疗保健和电子商务,需要学习实验结束后的最佳治疗分配策略,即最小化简单遗憾。然而,这个目标尚未得到充分研究。
方法:提出了一种新的基于“一致臂集合”(CASs)的计算效率高的算法族,用于随机上下文环境的Bandit设置。该算法族可以与任何函数类一起工作,对模型错误不敏感,并可用于连续臂设置。
效果:通过实验证明,这种新的算法族在简单遗憾和累积遗憾的保证方面取得了积极的结果,但同时也展示了一个负面结果,即没有算法能在实现实例依赖的简单遗憾保证的同时,达到最优的累积遗憾的最小最大保证。
Nearly Optimal Bounds for Cyclic Forgetting
William Joseph Swartworth Deanna Needell Rachel Ward Mark Kong Halyun Jeong
研究问题:本文旨在对连续学习环境中线性任务的遗忘量提供理论界限。
动机:在连续学习中,每一轮的学习都对应于投影到一个线性子空间,理解其遗忘现象对于改进学习方法具有重要意义。
方法:通过对所有任务和环境维度的选择进行统一处理,证明了遗忘上界的最佳已知值为O(T^2/m)。
效果:我们的主要技术贡献是对所有$T$(实数或复数)投影产品的数值范围的并集进行了表征,结果呈现出一种螺旋正弦波形状,这可能具有独立的兴趣。
Anytime Model Selection in Linear Bandits
Parnian Kassraie Nicolas Emmenegger Andreas Krause Aldo Pacchiano
研究问题:在Bandit优化中进行模型选择是一个挑战性的问题,因为它不仅需要对研究问题:在Bandit优化中进行模型选择是一个挑战性的问题,因为它不仅需要对行动选择进行探索和利用的平衡,还需要对模型选择进行探索和利用的平衡。
动机:我们的主要洞察是,对于线性Bandits中的模型选择,我们可以使用有利的偏差-方差权衡来模拟向在线学习者提供完全信息反馈。
方法:我们开发了ALEXP,该方法具有指数改善($\log M$)的依赖于M的遗憾。
效果:ALEXP对其遗憾有随时保证,既不需要知道视界n,也不依赖于初始的纯探索阶段。我们的方法利用了Lasso的新的时间一致分析,建立了在线学习和高维统计之间的新联系。
Rigorous Runtime Analysis of MOEA/D for Solving Multi-Objective Minimum Weight Base Problems
Anh Viet Do Aneta Neumann Frank Neumann Andrew M. Sutton
研究问题:本文研究多目标最小权重基问题,这是经典NP难组合问题的抽象,如多目标最小生成树问题。
动机:为了解决这类复杂问题,我们提出了一种新颖的优化算法,并对其性能进行了深入的理论分析。
方法:我们首先证明了非支配前沿凸包的一些重要性质,然后利用这些性质对MOEA/D算法进行了首次运行时间分析。我们还设计了适当的分解设置,使得MOEA/D能在预期的固定参数多项式时间内找到所有的极端点。
效果:实验结果证实了我们的理论发现,并且与之前研究的问题GSEMO相比,MOEA/D在所有实例上都能找到所有的极端点,而且速度更快。
Statistical Analysis of Quantum State Learning Process in Quantum Neural Networks
Hao-Kai Zhang Chenghong Zhu Mingrui Jing Xin Wang
研究问题:本文旨在研究量子神经网络(QNNs)在未知量子状态学习中的问题。
动机:量子神经网络是追求各种领域近程量子优势的有希望框架,其中许多应用可以看作是学习编码有用数据的量子状态。
方法:本文开发了一个关于使用QNNs学习未知量子状态的无法实现定理,即使从高保真初始状态开始。
效果:实验结果表明,这些结果适用于任何电路结构、初始化策略,并适用于固定架构和自适应方法。这些发现对改善QNNs的可学习和可扩展性的良好初始猜测和自适应方法设定了一般限制,并深化了对先验信息在QNNs中的作用的理解。
Zero-sum Polymatrix Markov Games: Equilibrium Collapse and Efficient Computation of Nash Equilibria
Fivos Kalogiannis Ioannis Panageas
研究问题:在多玩家马尔科夫游戏中计算纳什均衡是一个计算上的难题,能否通过专注于特定类别的马尔科夫游戏来规避计算上的困难?
动机:Daskalakis等人(2009, 2022; Jin et al., 2022; Deng et al., 2023)的工作指出,在多玩家马尔科夫游戏中计算纳什均衡是一个计算上的难题。这引发了一个问题,即如果专注于特定的马尔科夫游戏类别,是否可以规避计算上的困难。
方法:受零和多项式矩阵正规形式游戏(Cai et al., 2016)的启发,我们定义了一类只有由图描述的成对交互的零和多代理马尔科夫游戏,该图会随状态变化。
效果:对于这类马尔科夫游戏,我们证明了可以有效地找到ε近似纳什均衡。为此,我们通过证明粗关联均衡集塌陷到纳什均衡集,从而推广了(Cai et al., 2016)的技术。之后,可以使用文献中任何计算近似粗关联均衡马尔可夫策略的算法来获得近似纳什均衡。
Most Neural Networks Are Almost Learnable
Amit Daniely Nathan Srebro Gal Vardi
研究问题:开发一种有效的算法来学习随机常深度网络。
动机:为了解决在复杂网络中进行有效学习和理解的问题。
方法:提出了一种多项式时间近似解决方案(PTAS),用于学习具有固定深度和误差的随机Xavier网络。
效果:该算法在时间和样本复杂度上表现出色,对于某些情况下的sigmoid和ReLU类似激活函数,其性能可以进一步提高,实现准多项式时间学习常深度随机网络。
Quantum Bayesian Optimization
Zhongxiang Dai Gregory Kang Ruey Lau Arun Verma Yao Shu Bryan Kian Hsiang Low Patrick Jaillet
研究问题:如何优化复杂的黑箱奖励函数。
动机:现有的优化方法有理论上限和下界,但无法解决具有非线性奖励函数的复杂现实问题。
方法:提出量子高斯过程-置信上界(Q-GP-UCB)算法,利用量子计算实现更好的优化效果。
效果:Q-GP-UCB是首个能在多项式对数时间内达到上界 regret 的优化算法,其在实践中也表现出了潜在的优势。
Minimum Description Length and Generalization Guarantees for Representation Learning
Milad Sefidgaran Abdellatif Zaidi Piotr Krasnowski
研究问题:设计高效的统计监督学习算法的一个主要挑战是找到不仅在可用训练样本上,而且在未见过的数据上也表现良好的表示。
动机:虽然对表示学习的研究引起了极大的兴趣,但大多数现有的方法都是启发式的;关于理论泛化保证的知识非常有限。
方法:本文建立了一个压缩性框架,使我们能够从标签或潜在变量(表示)的“最小描述长度”(MDL)的角度,推导出表示学习算法的泛化误差的上限。
效果:我们新的界限反映了编码器的结构,对于确定性算法来说并非空洞无物。我们的压缩性方法,本质上是信息论的,建立在Blum-Langford的PAC-MDL界限的基础上,引入了两个基本要素:块编码和有损压缩。最后,我们部分利用了理论结果,引入了一种新的数据依赖先验。数值模拟说明了与IB中使用的经典先验相比,精心选择的这种先验的优势。
Batch Bayesian Optimization For Replicable Experimental Design
Zhongxiang Dai Quoc Phong Nguyen Sebastian Shenghong Tay Daisuke Urano Richalynn Leong Bryan Kian Hsiang Low Patrick Jaillet
研究问题:如何在有限的预算下,评估多个实验条件并复制每个条件多次,同时解决大规模异方差观察噪声的问题。
动机:在现实世界的实验设计中,由于存在大量和异方差的观察噪声,需要在评估更多独特条件与复制每个条件较少次之间进行权衡,同时也需要考虑到风险规避。
方法:提出了批量汤普森采样可复制实验设计(BTS-RED)框架,包括三种算法。BTS-RED-Known和BTS-RED-Unknown算法分别针对已知和未知的噪声方差,自适应地选择复制次数,以应对噪声异方差问题。
效果:在精准农业和AutoML两个实际应用中,证明了这些算法的有效性。
Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement Learning
Ahmadreza Moradipari Mohammad Pedramfar Modjtaba Shokrian Zini Vaneet Aggarwal
研究问题:本文旨在证明强化学习中Thompson Sampling的最先进的贝叶斯遗憾界限。
动机:为了改进现有关于信息比的分析,以及在时间非均匀强化学习问题中探索环境空间的Kolmogorov l1-维度上限。
方法:通过详细分析信息比和环境空间的Kolmogorov l1-维度,提出了一种改进的Thompson Sampling方法。
效果:在多种设置下,如表格、线性和有限混合等,找到了具体的d_{l_1}界限,并讨论了如何利用这些结果来提高最先进的性能。
Cascading Contextual Assortment Bandits
Hyunjun Choi Rajan Udwani Min-hwan Oh
研究问题:提出了一种新的组合式选择模型——级联上下文分类选择模型,并设计了相应的算法。
动机:该模型是对现有级联选择模型和分类选择模型的泛化,可以更广泛地应用于实践。
方法:我们为这个模型设计了首个基于UCB的选择算法——UCB-CCA,并证明了该算法能达到比现有级联上下文选择模型更优的遗憾上限。为了进一步改善对问题相关常数的依赖性,我们又设计了第二种算法——UCB-CCA+,该算法利用了新的贝叶斯类型集中结果。
效果:通过数值实验验证了我们的理论研究,证实了我们提出的方法在实践中的有效性。
Towards Optimal Effective Resistance Estimation
Rajat Vadiraj Dwaraknath Ishani Karmarkar Aaron Sidford
研究问题:如何有效估计无向、扩展图中的有阻值。
动机:当前对于无向、扩展图的有效阻值估计算法存在时间复杂度高和误差大的问题。
方法:提出一种新算法,通过联合训练知识图谱和文本语料库,对ERNIE模型进行训练,以捕捉语义模式。
效果:实验结果表明,该算法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Bayes beats Cross Validation: Efficient and Accurate Ridge Regression via Expectation Maximization
Shu Tew Mario Boley Daniel F. Schmidt
研究问题:如何更有效地调整岭回归的正则化超参数λ。
动机:当前的调整方法计算量大,且可能陷入局部最优解,导致效果不佳。
方法:提出一种新方法,通过贝叶斯形式对岭回归进行建模,并结合期望最大化算法进行迭代学习,可以在大数据集上找到唯一的最优解。
效果:该方法在大规模数据集上表现优越,并且计算复杂度低,可以有效提升调整岭回归超参数的效率和准确性。
BiSLS/SPS: Auto-tune Step Sizes for Stable Bi-level Optimization
Chen Fan Gaspard Choné-Ducasse Mark Schmidt Christos Thrampoulidis
研究问题:现有的双层优化算法在计算超梯度时,两个耦合的学习率会受到近似误差的影响,需要仔细的微调以保证快速收敛。
动机:为了解决这个问题,我们研究了最近提出的自适应步长方法,即随机线搜索(SLS)和随机Polyak步长(SPS),用于计算上下两层的学习率。
方法:我们重新审视了SLS和SPS在单层优化中的应用,没有通常假设的额外插值条件。对于这些设置,我们调查了改进现有文献中建议的新SLS和SPS变体,并且实现起来更简单。重要的是,这两种变体可以看作是具有包络型步长的一般方法族的特殊实例。这种统一的包络策略允许扩展算法及其收敛保证到BO设置。
效果:我们的大量实验表明,新的算法(有SGD和Adam版本)可以找到大的学习率,需要最小的调整,并且比需要微调的相应的vanilla SGD或Adam BO算法更快地收敛。
Blocked Collaborative Bandits: Online Collaborative Filtering with Per-Item Budget Constraints
Soumyabrata Pal Arun Suggala Karthikeyan Shanmugam Prateek Jain
研究问题:多用户多臂赌博机问题中,如何设计算法在预算限制下最大化所有
动机:为了解决这个问题,我们研究了最近提出的自适应步长方法,即随机线搜索(SLS)和随机Polyak步长(SPS),用于计算上下两层的学习率。
方法:我们重新审视了SLS和SPS在单层优化中的应用,没有通常假设的额外插值条件。对于这些设置,我们调查了改进现有文献中建议的新SLS和SPS变体,并且实现起来更简单。重要的是,这两种变体可以看作是具有包络型步长的一般方法族的特殊实例。这种统一的包络策略允许扩展算法及其收敛保证到BO设置。
效果:我们的大量实验表明,新的算法(有SGD和Adam版本)可以找到大的学习率,需要最小的调整,并且比需要微调的相应的vanilla SGD或Adam BO算法更快地收敛。
Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width, Samples, and Time
Arvind Venkat Mahankali Jeff Z. HaoChen Kefan Dong Margalit Glasgow Tengyu Ma
研究问题:本文探讨了在没有不自然修改的情况下,神经网络的梯度下降是否能达到比核方法更好的样本复杂度。
动机:尽管最近在两层神经网络的非凸优化理论上取得了进展,但神经网络的梯度下降能否在没有不自然修改的情况下达到比核方法更好的样本复杂度仍然是一个开放的问题。
方法:本文对多项式宽度的两层神经网络进行了清晰的平均场分析。与之前的工作不同,我们的分析不需要对优化算法进行不自然的修改。
效果:我们证明了使用$n=O(d^{3.1})$个样本训练的网络可以在多项式时间内收敛到一个非平凡的错误,这是使用$n\ll d^4$个样本的核方法无法实现的,从而清晰地区分了未修改的梯度下降和NTK。因此,我们可以得出结论,具有正学习率和多项式迭代次数的投影梯度下降可以以相同的样本复杂度收敛到低误差。
Statistical and Computational Trade-off in Multi-Agent Multi-Armed Bandits
Filippo Vannella Alexandre Proutiere Jaeseong Jeong
研究问题:多智能体多臂赌博机中遗憾最小化的问题
动机:尽管最近在两层神经网络的非凸优化理论上取得了进展,但神经网络的梯度下降能否在没有不自然修改的情况下达到比核方法更好的样本复杂度仍然是一个开放的问题。
方法:本文对多项式宽度的两层神经网络进行了清晰的平均场分析。与之前的工作不同,我们的分析不需要对优化算法进行不自然的修改。
效果:我们证明了使用$n=O(d^{3.1})$个样本训练的网络可以在多项式时间内收敛到一个非平凡的错误,这是使用$n\ll d^4$个样本的核方法无法实现的,从而清晰地区分了未修改的梯度下降和NTK。因此,我们可以得出结论,具有正学习率和多项式迭代次数的投影梯度下降可以以相同的样本复杂度收敛到低误差。
Uniform Convergence with Square-Root Lipschitz Loss
Lijia Zhou Zhen Dai Frederic Koehler Nathan Srebro
研究问题:本文旨在为高斯数据建立通用的一致收敛保证,以假设类的拉达玛契复杂度和标量损失函数的平方根的Lipschitz常数为基础。
动机:现有的基于平滑性(导数的Lipschitz常数)的结果需要进行实质性的泛化,并且需要处理更广泛的平方根-Lipschitz损失类别,包括用于研究相位检索和ReLU回归的非平滑损失函数。
方法:通过使用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
A Finite-Sample Analysis of Payoff-Based Independent Learning in Zero-Sum Stochastic Games
Zaiwei Chen Kaiqing Zhang Eric Mazumdar Asuman E. Ozdaglar Adam Wierman
研究问题:本研究探讨了两人零和随机博弈,并开发了一种平滑的最佳反应学习动态变体。
动机:为了解决矩阵游戏和随机博弈的独立学习动态问题。
方法:结合了矩阵游戏的独立学习动态和随机博弈的极小极大值迭代。
效果:得出了支付基础、收敛、理性和在两个玩家之间对称的学习动态结果,这是首次对此类独立学习动态进行有限样本分析。
Global Convergence Analysis of Local SGD for Two-layer Neural Network without Overparameterization
Yajie Bao Amarda Shehu Mingrui Liu
研究问题:目前,对于联邦学习中的基础算法——局部随机梯度下降(Local SGD)在非凸损失函数上的表现缺乏理论理解。
动机:由于噪声依赖于模型参数,因此对SGD的全局收敛性分析具有挑战性。现有的分析大多集中在全局梯度下降(GD)上,并依赖于注入噪声以实现局部或全局最优解的收敛。然而,当扩展到局部SGD时,现有的非凸情况下的分析只能保证找到稳定点,或者假设神经网络是过参数化的,以便通过神经切线核分析确保收敛到全局最小值。
方法:本文为两层神经网络提供了第一个无过参数化和无注入噪声的局部SGD的全局收敛分析,当输入数据为高斯分布时。我们证明的主要技术成分是“自我修正机制”和“全球模型参数方向的新精确递归表征”。
效果:实验结果证实了理论成果,即局部SGD可以在多项式时间内纠正两层网络并进入良好区域,然后以线性速度收敛到全局最小值,同时减少了通信轮次。
Maximum Average Randomly Sampled: A Scale Free and Non-parametric Algorithm for Stochastic Bandits
Masoud Moravej Khorasani Erik Weyer
研究问题:在线决策问题中如何权衡探索和利用。
动机:传统的UCB方法需要预先知道一个尺度参数,且仅使用尾部信息,这可能影响其性能。
方法:本文为两层神经网络提供了第一个无过参数化和无注入噪声的局部SGD的全局收敛分析,当输入数据为高斯分布时。我们证明的主要技术成分是“自我修正机制”和“全球模型参数方向的新精确递归表征”。
效果:实验结果证实了理论成果,即局部SGD可以在多项式时间内纠正两层网络并进入良好区域,然后以线性速度收敛到全局最小值,同时减少了通信轮次。
Universal Gradient Descent Ascent Method for Nonconvex-Nonconcave Minimax Optimization
Taoli Zheng Linglingzhi Zhu Anthony Man-Cho So Jose Blanchet Jiajin Li
研究问题:非凸-非凹最小最大优化在机器学习中有着广泛的应用,但现有的算法大多依赖于单方面的信息,如原始函数的凸性或对偶函数的凹性,或者特定的结构,如Polyak-Łojasiewicz和Kurdyka-Łojasiewicz条件。然而,在实践中验证这些规则条件是具有挑战性的。
动机:为了应对这个挑战,我们提出了一种新的、普遍适用的单循环算法——双平滑梯度下降上升方法(DS-GDA),它自然地平衡了原始和对偶更新。
方法:DS-GDA使用相同的超参数可以统一解决非凸-凹、凸-非凹和非凸-非凹问题,其收敛复杂度为O(ε^-4)。当知道KŁ指数时,可以获得更精确(甚至最优)的迭代复杂度。
效果:对于各种具有挑战性的非凸-非凹问题,包括“被遗弃的”、“双线性耦合最小最大”、“六次多项式”和“极化游戏”,DS-GDA都能消除极限环。据我们所知,这是第一个能在所有这些困难问题上实现收敛的一阶算法。
Certified Minimax Unlearning with Generalization Rates and Deletion Capacity
Jiaqi Liu Jian Lou Zhan Qin Kui Ren
研究问题:针对最小最大模型的$(epsilon,\delta)$认证机器取消学习。
动机:大部分现有工作集中在从具有单个变量的标准统计学习模型中进行取消学习,其取消步骤依赖于基于直接Hessian的传统牛顿更新。
方法:为最小最大模型开发了一种新的$(\epsilon,\delta)$认证机器取消学习算法。它提出了一个由基于总Hessian的完整牛顿更新和从差分隐私借用的高斯机制组成的最小最大取消步骤。为了获得取消认证,我们的方法通过仔细分析最小最大取消步骤的“敏感性”(即,最小最大取消变量与从头开始重新训练变量的接近程度)注入校准的高斯噪声。
效果:对于三种不同损失函数的情况(即,强凸-强凹损失),我们分别推导了总体强原-对偶风险的泛化率。我们还提供了删除容量,以保证只要删除的样本数量不超过推导的数量,就可以保持所需的总体风险。在训练样本n和模型维度d的情况下,我们得到了阶$\mathcal O(n/d^{1/4})$,这与基线方法(差分隐私最小最大学习)的$\mathcal O(n/d^{1/2})$有严格差距。此外,我们的泛化率和删除容量与先前为标准统计学习模型推导的最佳率相匹配。
On the Generalization Error of Stochastic Mirror Descent for Quadratically-Bounded Losses: an Improved Analysis
Ta Duy Nguyen Alina Ene Huy Nguyen
研究问题:重新审视随机镜像下降在二次有界损失函数上的泛化误差。
动机:二次有界损失函数是一类广泛的损失函数,可以捕获Lipschitz和平滑函数,适用于回归和分类问题。
方法:通过分析新的超级马氏链序列的矩生成函数并利用随机镜像下降的结构,直接获得高概率泛化保证。
效果:在所有上述设置中都获得了改进的界限。具体来说,在可实现的情况下和非可实现的情况下,数据都具有轻尾次高斯分布,我们将界限提高了一个logT因子,分别匹配了正确的1/T和1/sqrt(T)的速率。在更具挑战性的重尾多项式数据情况下,我们通过一个polyT因子改进了现有的界限。
Non-stationary Experimental Design under Linear Trends
David Simchi-Levi Chonghuan Wang Zeyu Zheng
研究问题:如何设计非平稳的实验,以解决传统静态平均处理效应(ATE)在医疗和其他领域中可能无法反映治疗效应随时间变化的问题。
动机:传统的实验设计和静态ATE在面对治疗效应可能随时间变化的情况下可能无法提供有效的信息,因此需要新的实验设计方法来估计动态处理效应并最小化实验中的福利损失。
方法:提出了一种有效的非平稳实验设计方法,该方法可以根据最优估计误差率、最优遗憾率或两者之间的帕累托最优权衡进行定制。同时,建立了信息理论下界,揭示了估计动态处理效应和最小化福利损失之间的基本权衡关系。
效果:通过实证分析,展示了这种新设计的有效性,并揭示了估计动态处理效应和最小化福利损失之间的基本权衡关系。
Payoff-based Learning with Matrix Multiplicative Weights in Quantum Games
Kyriakos Lotidis Panayotis Mertikopoulos Nicholas Bambos Jose Blanchet
研究问题:本文研究了在量子游戏中学习的问题,以及其他类别的半定博弈。
动机:由于量子游戏具有无限的纯状态(量子等价于纯策略),因此无法使用标准的估计支付向量的重要性加权技术来达到收敛。
方法:我们借鉴了赌博凸优化的思想,设计了一个适应于所处理问题的半定几何的零阶梯度采样器。
效果:结果显示,即使玩家只观察到一个标量,具有确定性支付反馈的3MW方法也能保持量子最小最大游戏中原始、完整信息的MMW算法的O(1/√T)收敛速度。此外,我们还提供了一种只需要玩家观察其支付可观察量的随机实现,并以O(T^{-1/4})的速度收敛到均衡的方法。最后,我们证明了所提出的3MW方法的正则化变体可以以高概率局部收敛到满足一定一阶稳定性条件的所有均衡。
Robust Second-Order Nonconvex Optimization and Its Application to Low Rank Matrix Sensing
Shuyao Li Yu Cheng Ilias Diakonikolas Jelena Diakonikolas Rong Ge Stephen Wright
研究问题:在存在异常值的情况下,寻找近似二阶平稳点(SOSP)是随机非凸优化中的一个基本问题,但在对抗环境中,这个问题的理解还很差。
动机:现有的非凸算法在对抗环境中的使用受到限制。
方法:我们提出了一个通用框架,可以在强污染模型中有效地找到具有“维度独立”精度保证的近似SOSP,使用$\widetilde{O}({D^2}/{\epsilon})$个样本,其中$D$是环境维度,$epsilon$是被污染数据点的分数。
效果:我们将该框架应用于低秩矩阵传感问题,开发了高效且可证明鲁棒的算法,可以容忍传感矩阵和测量中的干扰。此外,我们还建立了统计查询下界,证明了二次依赖$D$的样本复杂度对于计算效率高的算法是必要的。
Demystifying the Optimal Performance of Multi-Class Classification
Minoh Jeong Martina Cardone Alex Dytso
研究问题:如何有效估计监督多分类问题中分类器的贝叶斯错误率。
动机:由于贝叶斯错误率通常未知,因此有效地估计它是至关重要的。
方法:受Ishida等人(2023)工作的启发,提出了一种用于估计监督多分类问题的贝叶斯错误率的估计器。同时,还提出了一种去噪方法和中位数均值估计器来提高估计器的鲁棒性。
效果:理论分析和实验验证表明,所提出的估计器具有一致性、渐近无偏性、收敛速度和鲁棒性。在各种噪声设置下的合成数据和真实数据上都进行了有效的验证。
New Bounds for Hyperparameter Tuning of Regression Problems Across Instances
Nina Balcan Anh Tuan Nguyen Dravyansh Sharma
研究问题:本文旨在解决在数据驱动环境中,正则化回归模型中调整正则化参数的样本复杂度问题。
动机:目前对于线性和逻辑回归模型,在$\ell_1$和$\ell_2$-约束下调整正则化参数的问题,其有保证的样本复杂度仍然是一个重大挑战。
方法:通过更精细地利用对偶函数类的结构,为验证损失函数类提供了新的伪维度上界,显著改善了该问题上的最佳已知结果。同时,引入了一种新的方法来研究学习保证,通过近似验证损失函数类。
效果:实验结果表明,这种方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Fine-Grained Theoretical Analysis of Federated Zeroth-Order Optimization
Jun Chen Hong Chen Bin Gu Hao Deng
研究问题:本文旨在为联邦零阶优化(FedZO)算法建立系统的理论研究评估,通过开发平均模型稳定性的分析技术。
动机:尽管联邦零阶优化(FedZO)算法在黑箱攻击和softmax回归任务上表现出色,但目前还缺乏对其的一般化分析,且其计算收敛速度的分析比相应的一阶优化设置慢。
方法:通过发展平均模型稳定性的分析技术,建立了FedZO在Lipschitz连续性和平滑性条件下的第一个一般化误差边界。然后,通过用有界梯度替换重尾梯度噪声并利用二阶泰勒展开进行梯度近似,提供了更精细的一般化和优化边界。
效果:借助新的误差分解策略,我们的理论分析也扩展到了异步情况。对于FedZO,我们的精细分析填补了一般化保证的理论空白,完善了计算算法的收敛特性。
Bandit Task Assignment with Unknown Processing Time
Shinji Ito Daisuke Hatano Hanna Sumita Kei Takemura Takuro Fukunaga Naonori Kakimura Ken-Ichi Kawarabayashi
研究问题:本文提出了一种名为“任务分配”的新颖问题设置,该设置在强盗环境中考虑了每个任务的处理时间。
动机:在这个问题设置中,玩家需要连续选择一组要开始的任务,以便处理任务集满足给定的组合约束。每个任务的奖励和处理时间遵循未知分布,只有在任务完成后才会揭示其值。这个问题推广了随机组合半强盗问题和预算受限强盗问题。
方法:针对这个问题设置,我们提出了一种基于置信上界(UCB)与分阶段更新方法的算法。所提出的算法允许差距依赖性遗憾上界为$O(MN(1/\Delta){\log T})$,且无差距遗憾上界为$\tilde{O}( \sqrt{MNT} )$,其中N是任务数量,M是同时运行的最大任务数,T是时间范围,$\Delta$是最优和次优任务集的预期每轮奖励之间的差距。这些遗憾边界几乎匹配了下界。
效果:借助新的误差分解策略,我们的理论分析也扩展到了异步情况。对于FedZO,我们的精细分析填补了一般化保证的理论空白,完善了计算算法的收敛特性。
An Exploration-by-Optimization Approach to Best of Both Worlds in Linear Bandits
Shinji Ito Kei Takemura
研究问题:如何构建一种在随机和对抗环境中都能实现接近最优性能的线性bandit算法。
动机:现有的线性bandit算法在对抗环境和随机环境中的性能存在差距,需要寻找一种能在两种环境中都表现优秀的算法。
方法:采用优化探索法(exploration by optimization)来构建新的线性bandit算法。
效果:实验结果表明,这种新算法在对抗环境中能达到$O(d \sqrt{ T \log{T}})$的遗憾度,在随机环境中能达到$O(\frac{d^2 log T}{\Delta_{\min}} )$的遗憾度,
Exploiting Correlated Auxiliary Feedback in Parameterized Bandits
Arun Verma Zhongxiang Dai Yao Shu Bryan Kian Hsiang Low
研究问题:本文研究了一种新的参数化bandits问题,其中学习者可以观察到与观察到的奖励相关的额外辅助反馈。
动机:在许多现实生活中的应用中,辅助反馈是现成的,例如,一个在线平台想要向其用户推荐评价最好的服务,可以观察到用户对服务的评分(奖励),并收集其他信息如服务交付时间(辅助反馈)。
方法:本文首先开发了一种利用辅助反馈构建具有紧置信界限的奖励估计器的方法,从而减小了遗憾。然后,我们通过奖励和其辅助反馈之间的相关系数来描述遗憾的减少。
效果:在不同设置下的实验结果也验证了我们提出的方法所获得的性能增益。
Weitzman's Rule for Pandora's Box with Correlations
Evangelia Gergatsouli Christos Tzamos
研究问题:在不确定性决策下,如何优化打开盒子的策略以最小化所选价值和支付的开启成本之和。
动机:当价值分布相关时,重新审视潘多拉魔盒问题,并改进先前的工作。
方法:采用Weitzman的规则作为最佳算法,该规则可以直接应用于相关情况。通过样本访问相关值分布来实现该规则。
效果:与先前的工作相比,该算法实现了显著的改进近似保证,同时大大简化。只需对盒子数量进行多项式数量的样本即可使算法工作。
Minimax Optimal Rate for Parameter Estimation in Multivariate Deviated Models
Dat Do Huy Nguyen Khai Nguyen Nhat Ho
研究问题:本文研究了多元偏离模型中的最大似然估计(MLE),其中数据由已知函数$h_{0}$和未知参数$(\mu^{\ast}, \Sigma^{\ast})$生成的密度函数$(1-\lambda^{\ast})h_{0}(x)+lambda^{\ast}f(x|mu^{\ast}, \Sigma^{\ast})$生成。
动机:推导MLE的收敛速度的主要挑战来自两个问题:(1)函数$h_{0}$与密度函数$f$之间的相互作用;(2)当样本大小趋向无穷大时,偏离比例$\lambda^{\ast}$可能趋向于$[0,1]$的极端点。
方法:为解决这些挑战,我们开发了“可区分性条件”来捕捉函数$h_{0}$和密度函数$f$之间的线性独立关系。然后,我们通过$\lambda^{\ast}$向零的消失速度以及两个函数$h_{0}$和$f$的可区分性,提供了MLE的全面收敛速度。
效果:实验结果表明,该方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning
Kaiwen Wang Kevin Zhou Runzhe Wu Nathan Kallus Wen Sun
研究问题:分布强化学习(DistRL)在何时何地比非分布的强化学习更有效,这个问题尚未得到解答。
动机:通过小损失界限的角度解释DistRL的优势,这些界限是依赖实例的,并且与最优可实现成本成比例。
方法:我们提出了一个分布上下文bandit(DistCB)算法作为热身,该算法展示了小损失遗憾界限,并在三个真实世界的任务上实证表现优于最先进的技术。我们还提出了一种在线RL的DistRL算法,该算法使用最大似然估计构造置信集。
效果:我们的分析表明,在低秩MDPs中,我们的算法享有新颖的小损失PAC界限。在离线RL中,我们证明悲观的DistRL享有新颖的小损失PAC界限,这个界限对糟糕的单一策略覆盖更具鲁棒性。
Simple, Scalable and Effective Clustering via One-Dimensional Projections
Moses Charikar Monika Henzinger Lunjia Hu Maximilian Vötsch Erik Waingarten
研究问题:如何有效地对大规模数据集进行聚类分析?
动机:目前的聚类算法在处理大规模数据集时,时间复杂度高,效率低下。
方法:提出了一种随机化的聚类算法,该算法的时间复杂度为$O(\mathsf{nnz}(X) + n\log n)$,明显优于现有的算法。
效果:实验证明,该算法在找到的聚类质量上通常优于最坏情况的界限,并且在运行时间和聚类质量之间提供了新的权衡。
SQ Lower Bounds for Learning Mixtures of Linear Classifiers
Ilias Diakonikolas Daniel Kane Yuxin Sun
研究问题:学习高斯协变量下线性分类器混合的问题。
动机:对一个未知单位向量的混合分布进行学习,以实现在总变分距离上的最佳分布。
方法:通过样本访问和统计查询算法,我们提出了一种新的球面设计构造,用于解决此问题。
效果:我们的主要结果是给出了一个统计查询(SQ)下界,表明已知的算法对于这个问题基本上是最优的,即使对于均匀混合的特殊情况下也是如此。
Rank-1 Matrix Completion with Gradient Descent and Small Random Initialization
Daesung Kim Hye Won Chung
研究问题:近年来,矩阵补全问题的非凸公式因其相对于凸公式的可负担复杂性而受到广泛关注。
动机:梯度下降(GD)是一种简单而有效的解决非凸优化问题的基线算法。
方法:通过样本访问和统计查询算法,我们提出了一种新的球面设计构造,用于解决此问题。
效果:我们的主要结果是给出了一个统计查询(SQ)下界,表明已知的算法对于这个问题基本上是最优的,即使对于均匀混合的特殊情况下也是如此。
Approximate Allocation Matching for Structural Causal Bandits with Unobserved Confounders
Lai Wei Muhammad Qasim Elahi Mahsa Ghasemi Murat Kocaoglu
研究问题:如何利用结构因果模型进行在线决策,特别是在因果关系已知的情况下。
动机:在随机环境中,观察和干预分布是未知的,需要通过与环境的交互来学习。因此,平衡探索与利用的权衡以最大化预期累积奖励是关键。
方法:使用结构因果模型对未观察变量的领域进行离散化,有效地整合样本以减少模型不确定性。设计一种算法,利用因果关系加速学习过程并采取信息丰富且有益的干预措施。
效果:该算法实现了对数级遗憾,并通过模拟实验证明其优于现有方法。
Provably Fast Convergence of Independent Natural Policy Gradient for Markov Potential Games
Youbang Sun Tao Liu Ruida Zhou Panganamala Kumar Shahin Shahrampour
研究问题:本文旨在研究多智能体强化学习中的Markov潜在博弈问题的独立自然政策梯度(NPG)算法。
动机:在多智能体强化学习中,寻找有效的算法来达到纳什均衡是一个重要的问题。目前的最优结果需要$\mathcal{O}(1/\epsilon^2)$次迭代,而本文提出的独立NPG方法可以在$\mathcal{O}(1/\epsilon)$次迭代内达到$\epsilon$-纳什均衡,这比现有的结果有所改进。
方法:本文提出了一种独立NPG算法,该算法利用一个提供精确策略评估的预言机,在引入“次优差距”的温和技术假设下,可以渐近地在$\mathcal{O}(1/\epsilon)$次迭代内达到$\epsilon$-纳什均衡。
效果:通过对合成潜在博弈和拥塞博弈的实证结果进行验证,证明了理论界的界限。
Sample Complexity for Quadratic Bandits: Hessian Dependent Bounds and Optimal Algorithms
Qian Yu Yining Wang Baihe Huang Qi Lei Jason D. Lee
研究问题:如何充分利用目标函数的局部几何结构,特别是在二次目标函数的情况下。
动机:在随机零阶优化中,理解如何充分利用目标函数的局部几何结构是一个具有实际意义的问题。
方法:我们引入了一个称为“能量分配”的概念,从信息理论的角度证明了Hessian依赖复杂性下的紧下界。通过解决最优能量谱,我们得到了匹配的上界。然后,在算法上,我们展示了存在一个Hessian独立的算法,该算法能在所有Hessian实例下实现渐近最优样本复杂度。
效果:我们的算法在处理重尾噪声分布时仍能保持最优样本复杂度,这得益于截断方法的实现。
Adversarially Robust Distributed Count Tracking via Partial Differential Privacy
Zhongzheng Xiong Xiaoyi Zhu Zengfeng Huang
研究问题:本文研究分布式跟踪模型,即分布式功能监控。该模型涉及k个站点,每个站点接收一系列项目并与中央服务器通信。服务器的任务是连续跟踪所有已接收项目的函数,同时最小化通信成本。
动机:对于计数跟踪,已知确定性算法和随机化算法之间存在$\sqrt{k}$的通信差距。然而,现有的随机化算法假设一个“盲目的对手”,在算法开始之前构造整个输入流。这里我们考虑适应性对手,他们可以根据算法之前的反馈选择新的项目。确定性算法对适应性对手来说显然是鲁棒的,而随机化算法可能不是。因此,我们研究随机化算法的$\sqrt{k}$优势是否来自随机性本身还是盲目的对手假设。
方法:我们通过引入“部分差分隐私”并证明一个新的泛化定理来解决这个问题。这个定理可能会超越鲁棒计数跟踪的范围,具有更广泛的应用,使其具有独立的兴趣。
效果:我们的实验结果表明,新提出的算法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Online Performative Gradient Descent for Learning Nash Equilibria in Decision-Dependent Games
Zihan Zhu Ethan X Fang Zhuoran Yang
研究问题:本文旨在研究多智能体决策依赖游戏中的纳什均衡问题,特别是在探索性学习设置中。
动机:传统的基于梯度的方法在没有梯度神谕的情况下无法解决策略耦合的问题。
方法:我们通过一个通用的参数模型来模拟策略交互,并提出了一种新的在线算法——在线表现梯度下降(OPGD),它利用了在线随机近似和投影梯度下降的思想,以函数逼近的方式寻找未知梯度的纳什均衡。
效果:在弱假设下,我们证明了OPGD可以在强单调的决策依赖游戏中有效地找到纳什均衡。合成数值实验验证了我们的理论。
Scaling Up Differentially Private LASSO Regularized Logistic Regression via Faster Frank-Wolfe Iterations
Edward Raff Amol Ashish Khanna Fred Lu
研究问题:目前没有针对稀疏输入数据训练差分隐私回归模型的方法。
动机:为了解决这一问题,我们调整了$L_1$惩罚线性回归的Frank-Wolfe算法,使其能够有效利用稀疏输入。
方法:通过减少算法的训练时间,从$\mathcal{O}( T D S + T N S)$降低到$mathcal{O}(N S + T \sqrt{D} \log{D} + T S^2)$,其中$T$是迭代次数,$S$是数据集的稀疏率,$N$是行数,$D$是特征数。
效果:实验结果表明,这种方法可以将运行时间减少多达$2,200\times$,具体取决于隐私参数$\epsilon$和数据集的稀疏程度。
Online Adaptive Policy Selection in Time-Varying Systems: No-Regret via Contractive Perturbations
Yiheng Lin James A Preiss Emile Timothy Anand Yingying Li Yisong Yue Adam Wierman
研究问题:本文研究了在具有时变成本和动态性的系统中进行在线自适应策略选择的问题。
动机:为了解决现有方法需要大量信息和计算,且不能快速适应环境变化的问题。
方法:开发了一种基于梯度的自适应策略选择(GAPS)算法和一个通过在线优化进行在线策略选择的通用分析框架。
效果:实验结果表明,GAPS能更快地适应不断变化的环境,比现有的基准测试表现更好。
Computing Approximate $\ell_p$ Sensitivities
Swati Padmanabhan David Woodruff Qiuyi Zhang
研究问题:如何有效地对数据集进行降维处理,以减少计算复杂度并提高模型性能。
动机:现有的降维方法主要关注去除低敏感性的数据点,但快速算法仅适用于$\ell_2$设置。本研究旨在提供高效的算法来近似$\ell_p$敏感性和其他矩阵的统计量。
方法:提出了一种计算给定矩阵的$\alpha$-近似$\ell_1$敏感性的方法,该方法只需进行$n/\alpha$次敏感性计算。同时,还提出了基于$\ell_p$刘易斯权重重要性采样的算法,用于估计总$\ell_p$敏感性,该算法在大约$\sqrt{d}$次敏感性计算的成本下实现了常数因子近似。此外,还估计了最大$\ell_1$敏感性,误差不超过$\sqrt{d}$倍。并将这些结果推广到$\ell_p$范数。
效果:实验表明,对于现实世界数据集中的一类结构矩阵,总敏感性可以快速近似,并且明显小于理论预测值,说明现实世界数据集的平均内在有效维度较低。
Quantifying the Cost of Learning in Queueing Systems
Daniel Freund Thodoris Lykouris Wentao Weng
研究问题:本文旨在解决队列系统中的参数不确定性问题,特别是在学习过程中早期阶段的统计复杂性。
动机:尽管队列系统的最优控制已得到广泛研究,但大多数现有方法都假设对系统参数有完全了解,这在实际应用中很少成立,因此激发了对队列系统基于学习的探索。
方法:本文提出了一种新的度量标准——*队列系统中的学习成本(CLQ)*,用于量化由于参数不确定性导致的时间平均队列长度的最大增加。我们为单队列多服务器系统、多队列多服务器系统和队列网络定义了CLQ,并建立了一个统一的分析框架,将李雅普诺夫分析和基于学习的探索相结合,为各种算法提供了保证。
效果:实验结果表明,CLQ能够有效地衡量队列系统中的学习成本,为解决参数不确定性问题提供了新的视角和方法。
Path following algorithms for $\ell_2$-regularized $M$-estimation with approximation guarantee
Yunzhang Zhu Renxiong Liu
研究问题:如何有效地选择正则化参数以平衡模型拟合和复杂度,并确定在选定网格点上应多准确地解决正则化问题。
动机:现有的方法通常通过选择一组网格点来解决这些问题,但如何选择网格点以及在选定的网格点上应多准确地解决问题,这两个因素都会极大地影响整体计算量。
方法:我们提出了一种新的网格点选择方案和适应性停止准则,适用于任何产生近似解决方案路径的优化算法,该方案可以保证近似误差。
效果:理论证明,所提出的方法可以近似任意精度的精确解决方案路径,同时尽可能多地节省整体计算量。数值结果也证实了我们的理论研究。
Harnessing the power of choices in decision tree learning
Guy Blanc Jane Lange Chirag Pabbaraju Colin Sullivan Li-Yang Tan Mo Tiwari
研究问题:如何改进标准和经验成功的决策树学习算法,如ID3、C4.5和CART。
动机:这些算法在机器学习中占据中心地位,但它们本质上是贪婪的,只考虑最佳属性进行分割。
方法:提出一种简单的一般化方法Top-k,它考虑k个最佳属性作为可能的分割,而不仅仅是单个最佳属性。
效果:理论和实验证明这种简单一般化的强大之处。首先,证明了贪婪层次定理,表明对于每个k∈N,Top-(k+1)可以比Top-k强大得多。然后,通过大量实验,证明Top-k优于决策树学习的两种主要方法:经典的贪婪算法和最近的“最优决策树”算法。一方面,Top-k在广泛的基准测试中始终能显著提高准确性。另一方面,Top-k比最优决策树算法更具可扩展性,能够处理远超过这些算法所能处理的数据集和特征集大小。
Hypothesis Selection with Memory Constraints
Maryam Aliakbarpour Mark Bun Adam Smith
研究问题:在有限的候选分布集中,如何选择一个与数据最匹配的分布。
动机:面对大量未知分布的数据,如何通过有限的样本来近似这个分布是一个重要的问题。
方法:本研究提出了一种在内存限制下进行假设选择的算法。该模型允许以“PDF比较”查询的形式逐条获取来自P的样本,并比较任意两个假设在点x处的密度。
效果:该算法实现了内存使用和所需样本数量之间的最佳权衡。具体来说,给定b位内存(对于大约在log n和n之间的b),该算法使用s个样本解决了假设选择问题,其中b * s = O(n log n)。这一结果在所有b上都是最优的,误差因子为O(log n)。
Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks
Feng Chen Daniel Kunin Atsushi Yamamura Surya Ganguli
研究问题:本研究旨在揭示随机梯度下降(SGD)在训练深度神经网络时存在的强烈隐含偏置,即倾向于将过度表达的网络简化为更简单的子网络,从而显著减少独立参数的数量并提高泛化能力。
动机:通过识别不变集(即SGD未修改的参数空间子集),我们发现SGD对简单(稀疏或低秩)子网络存在明显的吸引性。这种分析揭示了SGD的随机吸引性特性,并建立了一个基于损失景观曲率和随机梯度引入的噪声之间竞争的充分条件。
方法:我们关注了对应于更简单子网络的两类不变集,这两类不变集在现代架构中经常出现。我们观察到训练好的深度神经网络中存在着吸引力不变的集合,这意味着SGD动态往往崩溃为神经元消失或冗余的简单子网络。
效果:我们进一步证明,这种随机崩溃过程在线性教师-学生框架中有利于泛化。最后,通过这种分析,我们从机制上解释了为什么早期使用大学习率进行长时间训练会对后续泛化产生有利影响。
When is Agnostic Reinforcement Learning Statistically Tractable?
Zeyu Jia Gene Li Alexander Rakhlin Ayush Sekhari Nathan Srebro
研究问题:在未知MDP中,对于给定的策略类,需要多少轮交互才能学习到一个相对于策略类ε-次优策略?
动机:当前的预训练语言模型缺乏对丰富的结构化知识的利用。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
General Munchausen Reinforcement Learning with Tsallis Kullback-Leibler Divergence
Lingwei Zhu Zheng Chen Matthew Kyle Schlegel Martha White
研究问题:本文旨在探讨在强化学习中,通过引入Kullback-Leilbler (KL) 散度到先前的策略以防止策略改变过快的问题。
动机:许多强化学习中的策略优化方法都包含对前一个策略的KL散度,以防止策略变化过快。这个想法最初在一篇关于保守策略迭代的开创性论文中提出,并通过TRPO和蒙乔森值迭代(MVI)等算法给出了近似解。
方法:我们继续这项工作,通过研究一种广义的KL散度——Tsallis KL散度。Tsallis KL由q-对数定义,是一种严格的广义化,因为当q=1时,它对应于标准的KL散度;当q>1时,它提供了一系列的新选项。
效果:我们描述了在Tsallis KL下学习的策略类型,并说明了当q>1时可能的好处。为了得到一个实际的、融入了Tsallis KL正则化的策略优化算法,我们扩展了MVI,这是最简单的融入KL正则化的方法之一。我们在35个Atari游戏中展示了这种广义MVI(q)在标准MVI(q=1)上取得了显著的改进。
TD Convergence: An Optimization Perspective
Kavosh Asadi Shoham Sabach Yao Liu Omer Gottesman Rasool Fakoor
研究问题:本文旨在研究著名的时间差(TD)学习算法的收敛行为。
动机:通过优化的视角来看待TD算法,作者认为TD可以被视为一种迭代优化算法,每次迭代需要最小化的函数都会发生变化。
方法:通过对TD在经典反例上显示的发散进行仔细研究,作者确定了决定该算法收敛或发散的两个因素。然后在线性TD设置下,使用二次损失的形式,证明了TD的收敛性取决于这两个因素之间的相互作用。
效果:作者将这种优化视角扩展到了比仅线性近似和平方损失更广泛的设置中,证明了TD的收敛性。这些结果为TD在强化学习中的成功应用提供了理论解释。
Doubly Constrained Fair Clustering
John P Dickerson Seyed A. Esmaeili Jamie Heather Morgenstern Claire Jie Zhang
研究问题:公平聚类中不同公平性概念之间的关系。
动机:尽管这些概念有充分的理由,但它们通常是孤立地被研究和推动的,其中一个公平性要求被单独考虑,而不考虑其他要求。这使得理解不同公平性概念之间的关系成为公平聚类中的一个重要未解决问题。
方法:我们考虑了聚类中的两种主要的基于人口统计的代表公平性概念:(1)群体公平(GF),其中不同的人口统计群体在每个集群中应有接近于总人口级别的代表;(2)中心选择的多样性(DS),其中所选的中心应具有接近于每个群体的人口级别的代表。我们证明了,对于其中一个约束(只有GF或DS)的常数近似算法,我们可以同时获得满足两个约束的常数近似解。
效果:有趣的是,我们证明任何满足GF约束的解决方案都可以通过有限的成本降低来后处理,以额外满足DS约束,而如果解决方案满足DS而不是GF,则不能这样做。此外,我们还表明GF和DS与一组其他基于距离的公平性概念不兼容(在最坏的情况下,它们的可行性集为空)。最后,我们进行了实验以验证我们的理论发现。
Riemannian Projection-free Online Learning
Zihao Hu Guanghui Wang Jacob Abernethy
研究问题:如何提高优化算法在高维或病态约束集设置中的效率。
动机:投影操作在许多优化算法中是关键组成部分,但在高维或病态约束集设置中,其计算复杂性限制了效率。
方法:提出一种无需投影的优化子程序来替代投影查询的方法,以解决投影操作在高维或病态约束集设置中的效率问题。
效果:该方法在曲率空间上的在线测地凸优化问题上实现了次线性遗憾保证,并在具有分离查询或线性优化查询的情况下,分别达到了最佳的效果。
Online robust non-stationary estimation
Abishek Sankararaman Murali Balakrishnan
研究问题:如何实时估计来自高维、重尾和被破坏的数据流中随时间变化参数?
动机:在从网络监控和异常检测到数据中心流量调度的各种系统中,这是常见的子程序。
方法:我们证明了一种适当调整的剪切随机梯度下降(SGD)版本,它同时具有:(i)适应漂移,(ii)对重尾内联和任意破坏具有鲁棒性,(iii)不需要分布知识,(iv)可以在线流式实现。
效果:我们的观察是,既不能使用已知对平稳数据流的强凸损失函数最优的$\mathcal{O}left(\frac{1}{t}right)$学习率,也不能使用已知在无噪声环境中自适应漂移最优的$\mathcal{O}(1)$学习率。相反,需要用流长度T的-α次方的学习率来平衡对潜在漂移的适应性和对抗噪声。我们开发了一种新的归纳论证,并将其与鞅收敛结果相结合,以在任何学习率下推导出在表现出任意分布转移的数据流上具有高概率的结果 - 这种证明策略可能具有独立的兴趣。此外,使用经典的加倍技巧,我们放宽了对流长度T的知识。我们的研究是第一个被证明能够同时对重尾、破坏和分布转移具有鲁棒性的在线估计算法。我们在合成和真实数据上对我们的理论结果进行了实证补充。
Gradient-Based Feature Learning under Structured Data
Alireza Mousavi-Hosseini Denny Wu Taiji Suzuki Murat A Erdogdu
研究问题:本文探讨了在非均质数据中,梯度学习单指数模型的样本复杂度受其信息指数控制的问题。
动机:现有的研究主要关注等方差数据,而实际输入数据往往包含额外的结构,这可以隐式地指导算法。
方法:本研究考察了尖峰协方差结构的影响,并揭示了几个现象。首先,我们展示了在非均质设置中,常用的球形梯度动力学可能无法恢复真实方向,即使尖峰与目标方向完全对齐。其次,我们发现类似于批量归一化的适当权重归一化可以缓解这个问题。最后,通过利用(尖峰)输入协方差和目标之间的对齐,我们获得了比等方差情况更好的样本复杂度。
效果:在尖峰模型下,当尖峰大小适中时,梯度训练的样本复杂度可以独立于信息指数,同时优于旋转不变核方法的下界。
An Alternating Optimization Method for Bilevel Problems under the Polyak-Łojasiewicz Condition
Quan Xiao Songtao Lu Tianyi Chen
研究问题:双层次优化在新兴的机器学习领域如超参数优化、元学习和强化学习中重新引起了人们的兴趣,但目前还不清楚这个结果是否可以推广到更基本的设置之外的双层次问题。
动机:为了解决这个问题,我们首先引入了一个用于考虑的双层次问题的稳定度量标准,该标准对满足Polyak-Łojasiewicz (PL)条件的非凸下层次目标进行了泛化。然后,我们提出了一种适用于具有凸PL LL问题的BLO的广义交替方法(GALET),并建立了GALET在$\tilde{\cal O}(\epsilon^{-1})$次迭代内实现了所考虑问题的$\epsilon$-稳定点,这匹配了单层平滑非凸问题的GD的迭代复杂度。
方法:我们通过引入一个新的稳定度量标准和提出一种新的广义交替方法来解决双层次优化问题。
效果:实验结果表明,我们的方法可以在$tilde{\cal O}(\epsilon^{-1})$次迭代内实现双层次优化问题的$\epsilon$-稳定点,这在迭代复杂度上与单层平滑非凸问题的GD相匹配。
A Competitive Algorithm for Agnostic Active Learning
Yihan Zhou Eric Price
研究问题:探索更有效的主动学习算法,以减少样本需求并提高性能。
动机:目前的主动学习方法在某些假设类别和输入分布上效果不佳,需要更少的样本。
方法:提出一种新的基于分裂的方法,该方法在任意二进制假设类和输入分布上都能与最优算法竞争。
效果:实验结果表明,新算法在各种任务上都能取得较好的效果,且查询次数相对较少。同时证明该算法具有NP-hard的难度。
Lower Bounds on Adaptive Sensing for Matrix Recovery
Praneeth Kacham David Woodruff
研究问题:本文旨在研究利用线性测量恢复低秩矩阵的自适应传感算法的下界。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Context-lumpable stochastic bandits
Chung-Wei Lee Qinghua Liu Yasin Abbasi-Yadkori Chi Jin Tor Lattimore Csaba Szepesvari
研究问题:本文研究了具有S个上下文和K个动作的上下文bandit问题。
动机:在每个回合中,学习者根据过去的经验选择一个动作,然后观察到一个随机奖励,其均值是上下文和该回合动作的函数。
方法:假设上下文可以归入r个组,使得任何两个在同一组中的上下文的各种动作的平均奖励相同,作者给出了一种算法,该算法在使用了至多$\widetilde O(r (S +K )/\epsilon^2)$次采样后,以高概率输出一个$epsilon$-最优策略,并提供了相应的$\widetilde\Omega(r (S +K )/\epsilon^2)$下界。
效果:在遗憾最小化设置中,作者给出了一种算法,其累积遗憾在时间T内被限制为$\widetilde O(\sqrt{r ^3(S +K )T})$。这是首次在PAC设置中展示了近最优的样本复杂度,并在在线设置中对这个问题得到了$\widetilde O{\sqrt{\text{poly}(r)(S+K)T}}$的极小极大遗憾。作者还展示了他们的算法可以应用于更一般的低秩bandits,并在一些场景中得到了改进的遗憾界限。
Optimistic Rates for Multi-Task Representation Learning
Austin Watkins Enayat Ullah Thanh Nguyen-Tang Raman Arora
研究问题:本文旨在通过多任务表示学习(MTRL)进行迁移学习,其中多个源任务用于学习良好的通用表示,然后在其上训练目标任务的预测器。
动机:在损失函数和任务多样性的标准假设下,我们提供了关于目标任务的超额风险的新统计率,这些统计率证明了表示学习的好处。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Solving Linear Inverse Problems Provably via Posterior Sampling with Latent Diffusion Models
Litu Rout Negin Raoof Giannis Daras Constantine Caramanis Alex Dimakis Sanjay Shakkottai
研究问题:本文提出了首个利用预训练潜在扩散模型解决线性逆问题的框架。
动机:先前提出的算法(如DPS和DDRM)仅适用于像素空间扩散模型,而我们的方法可以应用于更一般的情况。
方法:我们的理论分析证明了在线性模型设置中样本恢复的可行性,这一算法洞察也适用于实践中常见的更一般的情况。
效果:实验结果表明,我们在随机修复、块修复、去噪、去模糊、去条纹和超分辨率等多种问题上优于先前提出的后验采样算法。
Sub-optimality of the Naive Mean Field approximation for proportional high-dimensional Linear Regression
Jiaze Qiu
研究问题:本文旨在解决现代机器学习中广泛应用的朴素平均场(NMF)近似在高
动机:先前提出的算法(如DPS和DDRM)仅适用于像素空间扩散模型,而我们的方法可以应用于更一般的情况。
方法:我们的理论分析证明了在线性模型设置中样本恢复的可行性,这一算法洞察也适用于实践中常见的更一般的情况。
效果:实验结果表明,我们在随机修复、块修复、去噪、去模糊、去条纹和超分辨率等多种问题上优于先前提出的后验采样算法。
Learning Curves for Noisy Heterogeneous Feature-Subsampled Ridge Ensembles
Benjamin Samuel Ruben Cengiz Pehlevan
研究问题:本文旨在开发一种理论,解释在有噪声的最小二乘岭集成中进行特征袋装的方法,并简化特殊情况下等相关性数据的学习曲线。
动机:特征袋装是一种成熟的集成方法,通过结合多个估计器在特征子集或投影上的预测来降低预测方差。然而,对于有噪声的最小二乘岭集成,其学习曲线和性能优化仍需要进一步的研究。
方法:本文首先开发了一种理论来解释在有噪声的最小二乘岭集成中进行特征袋装的方法,然后简化了等相关性数据的特殊情况下的学习曲线。接着,通过分析学习曲线,证明了子采样会改变线性预测器的双峰特性。最后,提出了异构特征集成作为一种计算效率高的方法来缓解双峰现象。
效果:实验结果表明,特征子采样集成与单一线性预测器相比,存在一个由子采样引起的噪声放大和由集成引起的噪声减少之间的权衡。这些定性的见解可以应用于具有现实数据集的图像分类任务中的线性分类器。
Non-Stationary Bandits with Auto-Regressive Temporal Dependency
Qinyi Chen Negin Golrezaei Djallel Bouneffouf
研究问题:传统的多臂赌博机(MAB)框架在许多现实世界的应用中,如推荐
动机:特征袋装是一种成熟的集成方法,通过结合多个估计器在特征子集或投影上的预测来降低预测方差。然而,对于有噪声的最小二乘岭集成,其学习曲线和性能优化仍需要进一步的研究。
方法:本文首先开发了一种理论来解释在有噪声的最小二乘岭集成中进行特征袋装的方法,然后简化了等相关性数据的特殊情况下的学习曲线。接着,通过分析学习曲线,证明了子采样会改变线性预测器的双峰特性。最后,提出了异构特征集成作为一种计算效率高的方法来缓解双峰现象。
效果:实验结果表明,特征子采样集成与单一线性预测器相比,存在一个由子采样引起的噪声放大和由集成引起的噪声减少之间的权衡。这些定性的见解可以应用于具有现实数据集的图像分类任务中的线性分类器。
When are ensembles really effective?
Ryan Theisen Hyunsuk Kim Yaoqing Yang Liam Hodgkinson Michael W. Mahoney
研究问题:本文旨在理论和实证地研究在分类任务中,何时集成学习能显著提高性能。
动机:虽然集成学习在统计数据分析中有着悠久的历史和许多有影响力的应用,但在许多现代机器学习设置中,其优势并不普遍且不明显。
方法:理论上,我们证明了与“集成改进率”(衡量集成相对于单个模型减少错误率的程度)和“不一致误差比”相关的新结果。我们表明,只要不一致率相对于平均错误率较大,集成就会显著改善性能;反之,如果不一致率相对于平均错误率较低,则通常一个分类器就足够了。在实践中,我们在各种环境中对集成进行了研究,验证了我们的理论预测,并确定了集成确实和不会导致大幅性能提升的实际场景。
效果:我们发现插值模型(目前在实践中的应用很广泛)和非插值模型(如树基方法,其中集成学习很受欢迎)的行为有明显的区别,证明后者的集成学习帮助要比前者大得多。
On the Convergence to a Global Solution of Shuffling-Type Gradient Algorithms
Lam M. Nguyen Trang H. Tran
研究问题:如何利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,本文提出通过在知识图谱中的有信息量的实体来增强语言表示。
方法:采用大规模文本语料库和知识图谱进行联合训练,训练出ERNIE模型,使其能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Reliable learning in challenging environments
Nina Balcan Steve Hanneke Rattana Pukdee Dravyansh Sharma
研究问题:设计能够保证预测结果正确的学习器在机器学习中的重要性日益增加。
动机:现有的学习理论保证只在非常特定的设置中被考虑,而现代机器学习问题中遇到的具有挑战性的测试时间环境(如对抗性测试时间攻击和自然分布转移)尚未得到充分的关注。
方法:本文提出了一种可靠的学习器设计并进行了分析,该学习器在此类环境中具有可证明的最佳保证。我们还讨论了该学习器的计算可行性实现,并在多个自然示例上展示了该算法的强大正性能保证,例如对数凹分布下的线性分离器或平滑概率分布下的平滑边界分类器。
效果:实验结果表明,该学习器在各种现代机器学习问题中具有强大的正性能保证,并且在处理对抗性测试时间攻击和自然分布转移等具有挑战性的测试时间环境时表现出色。
Label Robust and Differentially Private Linear Regression: Computational and Statistical Efficiency
Xiyang Liu Prateek Jain Weihao Kong Sewoong Oh Arun Suggala
研究问题:在数据点从分布中独立采样,并且一部分响应变量受到对抗性破坏的情况下,研究$(\varepsilon,\delta)$-差分隐私下的线性回归问题。
动机:当前预训练语言模型缺乏对丰富的结构化知识的利用,知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
On the Sublinear Regret of GP-UCB
Justin Whitehouse Aaditya Ramdas Steven Wu
研究问题:在核化赌博机问题上,学习者如何仅通过在
动机:当前预训练语言模型缺乏对丰富的结构化知识的利用,知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
$k$-Means Clustering with Distance-Based Privacy
Alessandro Epasto Vahab Mirrokni Shyam Narayanan Peilin Zhong
研究问题:本文研究了基于距离的隐私保护下的欧几里得聚类问题。
动机:在实际应用中,通常只需要保护精确位置的隐私,而非近似位置。
方法:提出了$k$-means和$k$-median聚类的常数近似算法,误差仅取决于攻击者的精度边界$\rho$,而非空间半径$Lambda$。
效果:实验证明,该算法明显优于先前的差分隐私聚类算法以及简单的基于距离的私有聚类基线。
Unconstrained Dynamic Regret via Sparse Coding
Zhiyu Zhang Ashok Cutkosky Ioannis Paschalidis
研究问题:本文研究了在线凸优化(OCO)在两个问题结构耦合下的问题,即领域无界和比较器序列$u_1,\ldots,u_T$是任意时间变化的。
动机:由于没有算法能同时对所有比较器序列保证低遗憾,因此需要从最小最大最优性转向比较器适应性来处理这种设置。
方法:本文利用稀疏编码框架实现了一种新的这种自适应遗憾界限。比较器的复杂性通过其在用户指定字典上的能量和稀疏性来衡量,这提供了相当大的灵活性。
效果:例如,配备了小波字典,我们的框架通过适应(i)比较器平均的幅度$||\bar u||=||\sum_{t=1}^Tu_t/T||$,而不是最大值$max_t||u_t||$;和(ii)比较器变异性$\sum_{t=1}^T||u_t-\bar u||$,而不是未中心化总和$\sum_{t=1}^T||u_t||$,从而改进了最先进的界限(Jacobsen & Cutkosky,2022)。此外,由于将函数近似与遗憾最小化解耦,我们的证明更简单。
Path Regularization: A Convexity and Sparsity Inducing Regularization for Parallel ReLU Networks
Tolga Ergen Mert Pilanci
研究问题:揭示深度神经网络成功背后的基本原理。
动机:解决当前文献中最重要的开放性问题之一,理解深度神经网络训练问题的本质。
方法:通过引入解析方法,揭示了优化景观中的隐藏凸性。考虑深度并行ReLU网络架构,并证明路径规范化的训练问题可以表示为一个精确的凸优化问题。进一步证明了等价的凸问题通过组稀疏诱导范数进行正则化。因此,路径规范化的并行ReLU网络可以看作是高维的简约凸模型。
效果:由于原始训练问题可能不是多项式时间可训练的,我们提出了一种全数据维度上具有完全多项式时间复杂度的近似算法。然后,我们证明了该算法的强大全局最优性保证。我们还提供了实验来证实我们的理论。
On the Role of Noise in the Sample Complexity of Learning Recurrent Neural Networks: Exponential Gaps for Long Sequences
Alireza Fathollah Pour Hassan Ashtiani
研究问题:本研究关注具有无界权重的噪声多层Sigmoid循环神经网络在序列分类问题上的表现。
动机:我们探索了向网络中的每个神经元输出添加独立同分布高斯噪声对学习性能的影响。
方法:我们考虑了带有噪声和无噪声两种情况,通过理论分析得出了样本复杂度的上界和下界。
效果:我们发现,噪声会显著影响样本复杂度与序列长度的关系,即使噪声很小,这种影响仍然存在。
Near-Optimal Bounds for Learning Gaussian Halfspaces with Random Classification Noise
Ilias Diakonikolas Jelena Diakonikolas Daniel Kane Puqian Wang Nikos Zarifis
研究问题:学习一般半空间的问题,考虑了随机分类噪声和高斯分布。
动机:对于这个基本问题,存在一个令人惊讶的信息计算差距。
方法:我们建立了算法和统计查询(SQ)的下界结果,并设计了一个具有样本复杂度为O(d/ε + d/max(p, ε))^2的高效学习算法。
效果:我们的积极结果是,任何有效的SQ算法(或低度测试)对此问题的样本复杂度至少为Ω(d^(1/2)/(max(p, ε))^2)。
Boosting with Tempered Exponential Measures
Richard Nock Ehsan Amid Manfred K Warmuth
研究问题:如何利用知识图谱和大规模文本语料库训练一种增强的语言表示模型(ERNIE)?
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱进行联合训练,训练出ERNIE模型,该模型能同时充分利用词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Achieving $\mathcal{O}(\epsilon^{-1.5})$ Complexity in Hessian/Jacobian-free Stochastic Bilevel Optimization
Yifan Yang Peiyao Xiao Kaiyi Ji
研究问题:本文重新审视了双层级优化问题,其中上层目标函数通常是非凸的,而下层目标函数是强凸的。尽管这类问题已经得到了广泛的研究,但在不需要任何二阶导数计算的情况下,如何在Hessian/Jacobian自由随机双层级优化中实现$\mathcal{O}(\epsilon^{-1.5})$的样本复杂度仍然是一个未解决的问题。
动机:为了填补这一空白,我们提出了一种名为FdeHBO的新型Hessian/Jacobian-free双层级优化器,它具有简单的全单循环结构、投影辅助有限差分Hessian/Jacobian向量近似和基于动量的更新。
方法:在理论上,我们证明了FdeHBO需要$\mathcal{O}(\epsilon^{-1.5})$次迭代(每次使用$\mathcal{O}(1)$个样本和仅一阶梯度信息)来找到一个$\epsilon$准确的稳定点。
效果:据我们所知,这是第一个在非凸-强凸随机双层级优化中实现$mathcal{O}(\epsilon^{-1.5})$样本复杂度的Hessian/Jacobian-free方法。
Distribution Learnability and Robustness
Shai Ben-David Alex Bie Gautam Kamath Tosca Lechner
研究问题:本文探讨了分布学习中学习能力与鲁棒学习能力之间的关系。
动机:为了理解在面对不同的攻击方式时,学习能力和鲁棒学习能力的关系。
方法:通过理论分析,研究了在加性污染(Huber污染)下学习能力对鲁棒学习能力的影响,以及在允许减法污染的情况下学习能力对鲁棒学习能力的影响。
效果:研究发现,在其他学习设置(如函数类PAC学习)中,可实现的学习能力并不等同于无差别的学习能力。同时,还探讨了压缩方案和差分隐私学习能力的相关影响。
An $\varepsilon$-Best-Arm Identification Algorithm for Fixed-Confidence and Beyond
Marc Jourdan Rémy Degenne Emilie Kaufmann
研究问题:本文提出了一种新的采样规则EB-TCε,用于随机 bandits 中的ε-best 臂识别。
动机:这是对近似最佳臂识别的Top Two算法进行首次分析。EB-TCε是一种*任何时候*都可以使用的采样规则,无需修改即可用于固定置信度或固定预算识别(无需预先了解预算)。
方法:我们为EB-TCε提供了三种类型的理论保证。首先,我们证明了在固定置信度设置中对其期望样本复杂度的界限,特别是展示了其与自适应探索参数调整相结合的渐近最优性。其次,我们通过对其在任何时间和任何松弛参数的错误概率的上界补充了这些发现,这进一步产生了对其在任何时间的简单遗憾的上界。最后,我们通过数值模拟表明,EB-TCε在不同近似最佳臂识别任务中表现优于现有算法。
效果:研究发现,在其他学习设置(如函数类PAC学习)中,可实现的学习能力并不等同于无差别的学习能力。同时,还探讨了压缩方案和差分隐私学习能力的相关影响。
Fast Optimal Locally Private Mean Estimation via Random Projections
Hilal Asi Vitaly Feldman Jelani Nelson Huy Nguyen Kunal Talwar
研究问题:本文研究了欧几里得球中高维向量的局部私有均值估计问题。
动机:现有的算法要么误差次优,要么通信和/或运行时间复杂度高。
方法:提出了一个新的算法框架ProjUnit,用于私有均值估计,该算法具有计算效率高、通信复杂度低、误差最优(1+o(1)因子)的特点。
效果:通过实验证明,该算法在私有均值估计和私有联邦学习方面获得了与最优算法相近的效用,同时通信和计算成本显著降低。
Adaptive Algorithms for Relaxed Pareto Set Identification
Cyrille Kone Emilie Kaufmann Laura Richert
研究问题:本文重新审视了多目标多臂老虎机模型中固定置信度的Pareto最优
动机:现有的算法要么误差次优,要么通信和/或运行时间复杂度高。
方法:提出了一个新的算法框架ProjUnit,用于私有均值估计,该算法具有计算效率高、通信复杂度低、误差最优(1+o(1)因子)的特点。
效果:通过实验证明,该算法在私有均值估计和私有联邦学习方面获得了与最优算法相近的效用,同时通信和计算成本显著降低。
Fitting trees to $\ell_1$-hyperbolic distances
Joon-Hyeok Yim Anna Gilbert
研究问题:本文旨在研究树的构建以表示或拟合距离,这是系统发育分析、度量嵌入、近似算法、几何图形神经网络和层次数据分析的关键组成部分。
动机:尽管大部分先前的算法工作都集中在没有先验约束的一般度量空间上,但利用来自超几何几何分析和几何群理论的几个想法,我们研究了树拟合问题,即寻找超度(度量)向量与最佳树(度量)嵌入误差之间的关系。
方法:我们定义了一个所有点三元组的超度(度量)值向量,并将这个向量的$\ell_p$范数与最佳树拟合距离的$\ell_q$范数进行比较。这种形式允许我们用归一化的$\ell_1$范数来定义平均超度(度量)。
效果:我们提出了一种名为\textsc{HCCRootedTreeFit}的算法,该算法的输出嵌入的$\ell_1$误差可以解析地限制在超度向量的$ell_1$范数内(即$p=q=1$),并且这个结果非常紧凑。此外,与Gromov的结果和相关算法相比,这种算法在理论和实证性能上有显著差异。最后,我们使用\textsc{HCCRootedTreeFit}和相关的树拟合算法表明,标准层次数据分析和几何图形神经网络数据集的树拟合与真正类似树的合成数据集截然不同,这表明需要对这些标准数据集进行更精细的分析。
Convergence of Actor-Critic with Multi-Layer Neural Networks
Haoxing Tian Alex Olshevsky Ioannis Paschalidis
研究问题:本文旨在解决演员-评论家方法中,使用深度神经网络作为政策和价值函数的近似器时的收敛性问题。
动机:早期的理论认为线性函数近似器可以实现收敛,近期的研究已经证明单隐藏层的神经网络可以达到收敛。本研究希望进一步证明具有任意数量隐藏层的深度神经网络也能达到收敛,弥合理论与实践之间的差距。
方法:通过在初始条件周围的球体上进行演员-评论家更新,证明了其会收敛到一个梯度平方平均值为O(1/√m) + O(ε)的邻域内,其中m是神经网络的宽度,ε是投影集合中最佳评论家神经网络的近似质量。
效果:实验结果表明,深度神经网络无论隐藏层的数量如何,都能实现演员-评论家方法的收敛。
SLM: A Smoothed First-Order Lagrangian Method for Structured Constrained Nonconvex Optimization
Songtao Lu
研究问题:解决目标和约束都涉及非凸函数的一类非凸功能约束优化(FCO)问题。
动机:近年来,神经网络的应用迅速增加,使得目标和约束往往涉及非凸函数,这对获取高质量的解决方案构成了重大挑战。
方法:利用原始-对偶优化框架,提出了一种平滑化的第一阶拉格朗日方法(SLM)来解决这个问题。
效果:通过量化对偶误差界,我们建立了SLM收敛到Karush-Kuhn-Tucker(KKT)解的理论保证。通过建立这种结构化FCO与均衡约束非凸问题(也称为双层优化)之间的联系,我们将所提出的SLM应用于下层问题为非凸的双层优化导向问题。从玩具示例和超数据清理问题中获得的数值结果表明,SLM优于基准方法。
Minimum norm interpolation by perceptra: Explicit regularization and implicit bias
Jiyoung Park Ian Pelakh Stephan Wojtowytsch
研究问题:本研究探讨了浅层ReLU网络如何在已知区域之间进行插值。
动机:我们发现,当数据点和参数的数量趋向无穷大时,经验风险最小化器会收敛到一个最小范数的插值,这是在权重衰减正则化器被一个随着网络宽度和数据点数量增长而精确消失的系数所惩罚的情况下发生的。
方法:我们使用和不使用显式正则化的方法,对常见的优化算法对于已知最小范数插值的隐含偏好进行了数值研究。
效果:实验结果表明,无论是否使用显式正则化,经验风险最小化器都会收敛到最小范数插值。
Unified Lower Bounds for Interactive High-dimensional Estimation under Information Constraints
Jayadev Acharya Clement Louis Canonne Ziteng Sun Himanshu Tyagi
研究问题:本研究关注在带宽限制、本地差分隐私和受限测量等局部信息约束下使用交互协议进行分布式参数估计的问题。
动机:为了解决这些问题,我们提出了一个统一的框架,能够为不同的参数分布族(连续和离散)推导出各种紧的最小最大下界,适用于任何$\ell_p$损失。
方法:我们的框架具有通用性,可以产生广泛适用于大量估计问题的“即插即用”的界限。对于高斯族这一典型情况,我们的方法规避了以往技术的局限性。
效果:具体来说,我们的方法恢复了使用数据处理不等式和克拉美罗-劳界(Cramér–Rao bounds)获得的结果,这两种方法在我们感兴趣的设置中用于证明下界。此外,对于我们考虑的这些族,我们还提供了匹配的上界。
On the Robustness of Mechanism Design under Total Variation Distance
Anuran Makur Marios Mertzanidis Alexandros Psomas Athina Terzoglou
研究问题:设计当代理的估值函数来自未知且相关的潜在分布时的机制。
动机:给定一个潜在分布D,我们有兴趣设计一个(诚实的)机制,对所有在总变分(TV)距离上接近D的“真实分布”都有良好的性能。
方法:我们展示了在这种设置中,DSIC和BIC机制对于任何有界目标函数O,在TV距离上具有很强的鲁棒性,扩展了Brustle等人的最新结果([BCD20],EC 2020)。我们的结果的核心是一个关于总变分距离的基本对偶性质。
效果:(i)我们展示了如何为弱相关的先验分布找到近似收入最优和近似BIC机制;(ii)当只有“噪声”版本的边际可访问时,我们展示了如何找到相关性鲁棒的机制,扩展了Bei等人的最新结果([BGLT19],SODA 2019);(iii)我们证明了先知不等式类型的保证对于相关的潜在分布是保留的,恢复了Dütting和Kesselheim的一个结果的变种([DK19],EC 2019)作为一个特例;(iv)我们给出了一个相关分布见证简单和最优机制之间收入无限分离的新的必要条件,补充了Psomas等人的最新结果([PSCW22],NeurIPS 2022);(v)我们给出了一个条件,对于单个代理的情况,其类型来自可以由马尔科夫随机场捕获的相关分布,简单机制可以近似收入最优机制,补充了Cai和Oikonomou的最新结果([CO21],EC 2021)。
Complexity of Derivative-Free Policy Optimization for Structured $\mathcal{H}_\infty$ Control
Xingang Guo Darioush Keivan Geir Dullerud Peter Seiler Bin Hu
研究问题:本文研究了在强化学习和连续控制中直接策略搜索的应用,并关注其在鲁棒控制任务中的复杂性。
动机:由于最优的H∞合成在结构约束下会导致非凸非光滑问题,通常需要使用基于Goldstein次微分或其他扩大次微分概念的次梯度策略搜索技术来解决,因此研究其复杂性具有重要的理论和实际意义。
方法:本文通过研究只能访问零阶oracle(即闭环系统的H∞范数)的策略优化方法寻找此类非光滑鲁棒控制设计任务的$(\delta,\epsilon)$-稳定点的问题,提出了一种新的理论结果。
效果:实验结果表明,所提出的方法在寻找$(\delta,\epsilon)$-稳定点时具有较低的样本复杂度,为模型自由、轨迹基础、零阶策略优化提供了新的视角。
Asynchronous Proportional Response Dynamics: Convergence in Markets with Adversarial Scheduling
Yoav Kolumbus Menahem Levy Noam Nisan
研究问题:本文研究了线性费雪市场中的成比例响应动态(PRD),其中参与者异步行动。
动机:在模型中,每一步都有一个对手选择一部分玩家更新他们的出价,受到实时性限制。作者希望探索如果每个出价者在被对手选中时都应用PRD更新规则,市场动态会如何发展。
方法:通过序列过程建模这种情况,并展示了如果每个出价者都单独应用PRD更新规则,那么在一般情况下,整个市场动态将收敛到竞争均衡。
效果:作者的证明技术揭示了线性费雪市场的其他属性,例如一般参数下市场均衡的唯一性以及在某些条件下相关无交换遗憾动态和最佳响应动态的收敛性。
Learning via Wasserstein-Based High Probability Generalisation Bounds
Paul Viallard Maxime Haddouche Umut Simsekli Benjamin Guedj
研究问题:如何改进结构风险最小化(SRM)中的泛化差距上限,以解决研究问题:如何改进结构风险最小化(SRM)中的泛化差距上限,以解决PAC-Bayesian学习框架中存在的KL散度项可能无法捕捉学习问题底层几何结构的问题。
动机:为了克服PAC-Bayesian框架的局限性,尝试用Wasserstein距离替代KL散度,以提高泛化差距上限的稳定性和实用性。
方法:提出了新的基于Wasserstein距离的PAC-Bayesian泛化差距上限,适用于批量学习和在线学习,并给出了可优化的训练目标。
效果:新提出的泛化差距上限具有高概率保证、适用于无界损失、可优化训练目标等优点,并通过实验验证了其在实际问题上的优势。
Privacy Amplification via Compression: Achieving the Optimal Privacy-Accuracy-Communication Trade-off in Distributed Mean Estimation
Wei-Ning Chen Dan Song Ayfer Ozgur Peter Kairouz
研究问题:如何在联合通信和$(\varepsilon, \delta)$-差分隐私(DP)约束下,实现联邦学习和分析的最优精度。
动机:联邦学习和分析中的隐私和通信限制是两个主要瓶颈。通过研究均值和频率估计的最优精度,可以优化这两个方面的性能。
方法:考虑中心化和多消息混淆两种差分隐私模型,通过压缩数据并随机选择每个客户端的贡献部分,实现了在通信、隐私和精度之间的最优权衡。
效果:实验结果表明,该方法可以在现实情况下获得显著的节省,并在联邦学习和分析中实现了最优的隐私-通信-精度权衡。
Three-Way Trade-Off in Multi-Objective Learning: Optimization, Generalization and Conflict-Avoidance
Lisha Chen Heshan Devaka Fernando Yiming Ying Tianyi Chen
研究问题:多目标学习(MOL)中,当需要解决多个学习标准或任务时,如何有效地进行动态权重算法的研究。
动机:尽管动态权重方法在理论上具有吸引力,但实证研究表明,它并不总是优于静态方法。因此,本研究旨在通过研究一种新的随机MGDA变体——双重抽样的多目标梯度(MoDo)算法,来弥合理论与实践之间的差距。
方法:我们专注于MoDo算法的泛化性能和优化之间的相互作用,通过算法稳定性的视角进行研究。我们发现,MGDA的基本思想——沿着冲突避免的方向进行更新——可能会阻碍动态权重算法实现最优的$O(1/\sqrt{n})$种群风险,其中n是训练样本的数量。
效果:我们进一步强调了动态权重的可变性及其对优化、泛化和冲突避免三者之间独特影响的三重权衡的影响。
How Does Adaptive Optimization Impact Local Neural Network Geometry?
Kaiqi Jiang Dhruv Malik Yuanzhi Li
研究问题:本文探讨了优化方法在神经网络训练中的作用,特别是自适应优化方法如Adam相对于传统梯度下降法的优势。
动机:传统的优化观点认为,自适应算法通过模仿二阶方法的行为来改善性能,但作者认为这种观点在神经网络优化中并不充分。
方法:作者提出了一种局部轨迹分析的方法,并引入了一个类似于损失Hessian条件数的统计量$R^{\text{OPT}}\_{\text{med}}$。通过对语言模型的大量实验,作者发现自适应方法如Adam倾向于将轨迹偏向于$R^{\text{Adam}}_{\text{med}}$较小的区域,而SGD(带动量)则倾向于将轨迹偏向于$R^{\text{SGD}}\_{text{med}}$较大的区域。
效果:作者的理论结果在两层线性网络的简化设置中证明了这一现象。这些发现为自适应方法的成功提供了新的证据,这与传统的观念不同。
Near-Optimal Algorithms for Gaussians with Huber Contamination: Mean Estimation and Linear Regression
Ilias Diakonikolas Daniel Kane Ankit Pensia Thanasis Pittas
研究问题:本文研究了高斯均值估计和带有高斯协变量的线性回归在存在Huber污染时的问题。
动机:当前对于这两个问题,尽管已有一些算法,但其样本复杂度和时间复杂度都不尽人意。
方法:本文设计了新的算法,通过多方向过滤的方法,实现了对高斯均值估计和线性回归问题的快速处理。
效果:实验结果表明,新算法在保证误差范围的前提下,显著降低了样本复杂度和运行时间,提高了效率。
Streaming Algorithms and Lower Bounds for Estimating Correlation Clustering Cost
Sepehr Assadi Vihan Shah Chen Wang
研究问题:本文旨在解决机器学习和理论计算机科学交叉领域的优化问题——相关性聚类。
动机:由于大数据处理的应用需求,近年来在流模型中对此问题的研究结果层出不穷。
方法:本文研究了内存需求远小于输入大小的流算法,所有先前的工作都集中在内存需求为$\Omega(n)$的半流算法上,而本文则研究了内存需求仅为$\text{polylog}{(n)}$位的流算法。
效果:作为主要成果,我们提出了两种新的算法,它们仅使用$\text{polylog}{(n)}$的空间就能估计最优相关性聚类成本,误差因子为某常数乘以一些额外项。其中一种算法输出的是$3$-倍乘性近似值加上$o(n^2)$附加近似值,另一种算法通过增加大常数倍数误差来进一步降低附加误差。
Replicable Reinforcement Learning
ERIC EATON Marcel Hussing Michael Kearns Jessica Sorrell
研究问题:如何使预训练语言模型充分利用结构化知识,提升语言理解能力。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,通过结合知识图谱可以增强语言表示。
方法:采用大规模文本语料库和知识图谱联合训练ERNIE模型,同时捕捉词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Stability of Random Forests and Coverage of Random-Forest Prediction Intervals
Yan Wang Huaiqing Wu Dan Nettleton
研究问题:本文旨在探讨随机森林的稳定性,并分析其在不同条件下的预测区间覆盖率。
动机:尽管随机森林在许多实际应用中表现出良好的性能,但其稳定性和预测区间覆盖率尚未得到充分研究。
方法:通过理论分析和实证研究,本文探讨了随机森林的稳定性以及基于其构建的预测区间的覆盖率。
效果:实验结果表明,随机森林具有良好的稳定性,并且其预测区间覆盖率满足预期。这为随机森林提供了额外的价值,使其不仅能提供满意的点预测,还能提供合理的区间预测,且几乎不需要额外的计算成本。
On Single-Index Models beyond Gaussian Data
Aaron Zweig Loucas Pillaud-Vivien Joan Bruna
研究问题:本研究旨在探讨稀疏高维函数在浅层神经网络梯度下降方法中的行为,以及其在非线性模型特征学习中的应用。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Comparing Apples to Oranges: Learning Similarity Functions for Data Produced by Different Distributions
Leonidas Tsepenekas Ivan Brugere Freddy Lecue Daniele Magazzeni
研究问题:如何有效地获取跨群体的相似性函数?
动机:当比较的元素来自不同的分布或属于不同的“人口”群体时,获取其真实相似性可能非常困难。
方法:提出一种有效的采样框架,仅使用有限的专家反馈来学习这些跨群体的相似性函数。
效果:通过大量的实验验证了算法的有效性,并提供了具有严格理论界限的分析结果。
Debiasing Conditional Stochastic Optimization
Lie He Shiva Kasiviswanathan
研究问题:本文研究了条件随机优化(CSO)问题,该问题涵盖了投资组合选择、强化学习、鲁棒学习、因果推断等多种应用。
动机:由于CSO目标的嵌套结构,其样本平均梯度存在偏差,导致收敛需要高样本复杂度。
方法:我们引入了一种通用的随机外推技术,有效地降低了偏差。对于非凸平滑目标,我们将这种外推与方差减小技术相结合,可以达到比现有界限更好的样本复杂度。
效果:我们还开发了新的有限和算法来解决CSO问题,这也显著改善了现有结果。最后,我们认为我们的去偏技术有可能成为解决其他随机优化问题的有效工具。
A Variational Perspective on High-Resolution ODEs
Hoomaan Maskan Konstantinos C. Zygalakis Alp Yurtsever
研究问题:本文旨在探讨无约束平滑凸函数的最小化问题,并提出一种新的变分视角。
动机:通过使用强制欧拉-拉格朗日方程,可以研究高分辨率ODEs,从而加快梯度范数最小化的收敛速度。
方法:我们提出了一种新颖的变分视角,利用强制欧拉-拉格朗日方程来研究高分辨率ODEs,并使用Nesterov加速梯度法进行梯度范数最小化。此外,我们还展示了Nesterov的方法可以被解释为适当选择的高分辨率ODE的速度匹配离散化。
效果:通过新的变分视角的结果,我们提出了一种用于噪声梯度的随机算法。几个数值实验将我们的随机算法与最先进的方法进行了比较和说明。
Algorithmic Regularization in Tensor Optimization: Towards a Lifted Approach in Matrix Sensing
Ziye Ma Javad Lavaei Somayeh Sojoudi
研究问题:本文旨在探讨梯度下降(GD)在张量优化中诱导隐式正则化,以实现矩阵感测问题的全局最优性的作用。
动机:最近提出的提升矩阵感测框架通过将虚假解决方案转化为严格的鞍点来解决非凸矩阵感测问题,而GD在这个提升问题上的应用可以产生近似的秩-1张量和具有逃逸方向的关键点。
方法:采用提升矩阵感测框架,并应用GD进行优化,通过适当的初始尺度,可以得到近似的秩-1张量和关键点。
效果:本文的发现强调了在解决这类问题时,张量的参数化以及一阶方法的重要性,可以有效地实现全局最优。
On Computing Pairwise Statistics with Local Differential Privacy
Badih Ghazi Pritish Kamath Ravi Kumar Pasin Manurangsi Adam Sealfon
研究问题:本文旨在解决在局部模型中计算具有差分隐私的成对统计量的问题。
动机:为了保护用户数据的隐私,需要在进行数据统计时加入差分隐私的保障。
方法:利用线性查询的差分隐私算法,给出了几种新颖且通用的算法。
效果:这些算法能够有效地计算出各种重要的统计量,如Kendall's tau系数、AUC值、Gini平均差和Gini熵等。
Combinatorial Group Testing with Selfish Agents
Giorgos Chionas Dariusz Rafal Kowalski Piotr Krysta
研究问题:本文在一种新的博弈论框架中研究组合群体测试(CGT)问题,解决方案概念为对抗均衡(AE)。
动机:在传统的CGT问题中,存在自私的代理者,他们的目标是尽快确认自己的存在。然而,当这些代理者的数量较小且未知时,如何设计有效的算法策略仍然是一个开放的问题。
方法:我们设计了一种新颖的游戏模型,其中包含n个自私的代理者和一个隐藏的活动代理者集合K。每个活动代理者在每轮游戏中决定是否出现在查询Q中,所有代理者都会收到关于Q和K交集的反馈。我们为这种新的游戏设计并分析了自适应的算法策略。
效果:如果k是已知的,我们的算法策略的学习时间可以保证为O(k log(n/k))。如果k未知,我们的算法策略的学习时间为O(n^k),并且我们证明了任何此类算法策略的学习时间至少为Omega(n)。这显示了已知和未知k的两个模型之间以及经典CGT(即没有自私代理者)和我们的博弈论CGT模型之间的明显区别。
Faster approximate subgraph counts with privacy
Dung Nguyen Mahantesh M Halappanavar Venkatesh Srinivasan Anil Vullikanti
研究问题:在图数据中,最常见的问题是计算子图在给定图中的非诱导嵌入的数量。
动机:这些计数具有非常高的全局敏感性。因此,基于强大的替代技术(如平滑敏感性和高阶局部敏感性)添加噪声已被证明可以显著提高准确性。
方法:本文展示了仍然可以使用对这些敏感性度量的良好近似值来获得私有算法。
效果:使用这种方法,我们展示了第一个准线性时间和并行算法用于私有地计数三角形的数量。我们还给出了一个私有的多项式时间算法,用于计数任何常数大小的子图,使用的噪声比全局敏感性少;我们表明,这可以在特殊类别的图中计数路径时得到显著改善。
Optimal Excess Risk Bounds for Empirical Risk Minimization on $p$-Norm Linear Regression
Ayoub El Hanchi Murat A Erdogdu
研究问题:本研究探讨了在$p\in(1,+\infty)$的$p$-范数线性回归问题上,经验风险最小化的性能。
动机:我们发现,在可实现的情况下,无需任何矩假设,并且仅需要$O(d)$个样本即可精确恢复目标。此外,对于$p\in[2,+\infty)$的情况,我们在目标和协变量上做了弱矩假设,证明了经验风险最小化者的高概率超额风险界,其主导项与渐近精确率相匹配。
方法:我们利用大规模文本语料库和知识图谱训练了一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Oracle Complexity of Single-Loop Switching Subgradient Methods for Non-Smooth Weakly Convex Functional Constrained Optimization
Yankun Huang Qihang Lin
研究问题:解决非凸约束优化问题,目标函数弱凸,约束函数为凸或弱凸。
动机:经典切换次梯度方法是一种直观且易于实现的一阶方法,但其求解非凸问题的复杂度仅已知于凸问题。
方法:利用大规模文本语料库和知识图谱训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Single-Call Stochastic Extragradient Methods for Structured Non-monotone Variational Inequalities: Improved Analysis under Weaker Conditions
Sayantan Choudhury Eduard Gorbunov Nicolas Loizou
研究问题:尽管随机单步增强梯度方法(如随机过去增强和随机乐观梯度)在研究问题:尽管随机单步增强梯度方法(如随机过去增强和随机乐观梯度)在解决各种机器学习任务中的大规模最小-最大优化和变分不等式问题上非常有效,但目前对于这些方法的收敛性分析需要强大的假设,如有限方差或增长条件。此外,关于这些方法的收敛性质的几个重要问题仍然未解,包括小批量处理、有效步长选择以及在不同采样策略下的收敛保证。
动机:本文旨在解决这些问题,并为两类结构非单调变分不等式提供收敛保证:(i)拟强单调问题(强单调问题的推广),(ii)弱 Minty 变分不等式(单调和 Minty 变分不等式的推广)。
方法:我们引入了期望残差条件,解释了它的优点,并展示了它如何使我们获得比之前使用的增长条件、预期共同强制性或有限方差假设更严格的弱边界。
效果:我们的收敛分析适用于任意采样范式,包括重要性采样和各种小批量处理策略作为特例。
Personalized Dictionary Learning for Heterogeneous Datasets
Geyu Liang Naichen Shi Raed Al Kontar Salar Fattahi
研究问题:本文提出了一个相关但具有挑战性的问题,即个性化字典学习(PerDL),目标是从共享某些共性的异构数据集中学习稀疏线性表示。
动机:在PerDL中,我们将每个数据集的共享和独特特征建模为全局和局部字典。PerDL的挑战不仅来自于经典的字典学习(DL),还由于共享和独特特征的未知性质而产生。
方法:本文严格地定义了这个问题,并提供了在什么条件下全局和局部字典可以证明是可分离的条件。在这些条件下,我们提供了一个名为个性化匹配和平均(PerMA)的元算法,可以从异构数据集中恢复全局和局部字典。
效果:PerMA非常高效,在适当的条件下以线性速度收敛到真实值。此外,它自动从强大的学习者中借用力量来提高弱学习者的预测能力。作为提取全局和局部字典的通用框架,我们在如不平衡数据集训练和视频监控等不同的学习任务中展示了PerDL的应用。
Multi-Agent Learning with Heterogeneous Linear Contextual Bandits
Anh Do Thanh Nguyen-Tang Raman Arora
研究问题:本研究旨在解决多智能体学习中,异构环境下的学习者如何以及何时从分享各自的经验中受益的问题。
动机:随着训练有素的智能系统越来越普遍,多智能体学习已成为研究自主代理之间复杂互动的热门框架。然而,对于异构环境中的学习者如何以及何时从分享各自的经验中受益的正式理解还远未完成。
方法:本文严格地定义了这个问题,并提供了在什么条件下全局和局部字典可以证明是可分离的条件。在这些条件下,我们提供了一个名为个性化匹配和平均(PerMA)的元算法,可以从异构数据集中恢复全局和局部字典。
效果:PerMA非常高效,在适当的条件下以线性速度收敛到真实值。此外,它自动从强大的学习者中借用力量来提高弱学习者的预测能力。作为提取全局和局部字典的通用框架,我们在如不平衡数据集训练和视频监控等不同的学习任务中展示了PerDL的应用。
Multi-Swap k-Means++
Lorenzo Beretta Vincent Cohen-Addad Silvio Lattanzi Nikos Parotsidis
研究问题:如何优化k-means聚类目标,提高解决方案的质量。
动机:现有的k-means++算法虽然在期望上给出了O(log k)的近似解,但质量仍有提升空间。
方法:通过考虑更大、更复杂的局部搜索邻域,扩展Lattanzi和Sohler的局部搜索算法,允许同时交换多个中心。
效果:该算法实现了9 + ε的近似比,这是局部搜索的最佳可能结果。此外,该算法易于实现,运行速度快,能在各种经典数据集上输出更好的解决方案。
Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms
Tiancheng Jin Junyan Liu Haipeng Luo
研究问题:设计一种自适应的多臂赌博算法,同时在随机设置和对抗设置中表现最优(通常被称为最佳双重保证)。
动机:最近的一些研究表明,当配置和分析得当时,最初为对抗环境设计的Follow-the-Regularized-Leader (FTRL) 算法实际上可以很好地适应随机环境。然而,这些结果严重依赖于存在一个唯一最优手臂的假设。
方法:我们通过移除这种不必要的唯一性假设,对具有广泛正则化器和新的学习率调度的FTRL算法进行了显著的改进和泛化。
效果:对于某些正则化器,即使唯一性成立,我们的遗憾界限也优于先前的结果。我们还将这些结果应用于解耦探索和利用问题,证明我们的技术具有广泛的应用性。
Counting Distinct Elements in the Turnstile Model with Differential Privacy under Continual Observation
Palak Jain Iden Kalemaj Sofya Raskhodnikova Satchit Sivakumar Adam Smith
研究问题:如何对从敏感数据集中学习并持续更新输出的系统进行隐私保护,特别是在数据流中项目可能被插入和删除的情况下。
动机:对于处理插入和删除的数据流,即使只考虑插入操作,现有的算法在数据流长度为T时,其误差也只是多项式对数级的。我们发现即使在没有内存限制的情况下,turnstile模型也存在更丰富的情况。
方法:我们提出了一种针对插入和删除操作的差分隐私机制,即使在相对弱的事件级别隐私定义下,该机制的误差也至少为T的1/4。我们还识别了输入流的一个参数——最大不稳定性,对于自然数据流来说,这个参数的值较低,并且我们为其提供了精确的参数化误差保证。
效果:我们提出的机制在所有最大不稳定性为w的turnstile流中,都能以O(√w * polylog T)的误差持续输出不同元素的数量,而无需预先知道w的值。我们证明了这是在w的一个大范围内唯一能达到的最佳误差边界。当w较小时,我们的机制的误差与插入操作时的多项式对数级误差相似,从而避开了turnstile模型中的困难。
Optimization and Bayes: A Trade-off for Overparameterized Neural Networks
Zhengmian Hu Heng Huang
研究问题:本文提出了一种新的算法,转换贝叶斯学习(TansBL),弥合了经验风险最小化(ERM)和神经网络的贝叶斯学习之间的差距。
动机:比较使用梯度下降优化的经验风险最小化(ERM)和具有重要采样的贝叶斯学习,以了解它们的泛化能力和计算复杂性。
方法:基于无限小步长梯度下降获得的已训练后验分布与高斯先验之间的精确KL散度,推导出第一个算法依赖的无限宽网络的PAC-Bayesian泛化边界。此外,通过引入权重,展示了如何将基于梯度的优化转化为重要性采样。
效果:虽然贝叶斯学习有更好的泛化能力,但其采样效率较低。而优化方法则具有良好的采样效率,但泛化能力较差。我们提出的TansBL算法实现了泛化和采样效率之间的权衡。
Mixture Weight Estimation and Model Prediction in Multi-source Multi-target Domain Adaptation
Yuyang Deng Ilja Kuzborskij Mehrdad Mahdavi
研究问题:如何从多个数据源学习一个模型,以在新的目标分布上表现良好。
动机:在多源数据收集或分布式系统中学习时,数据可能高度异构,需要将这些数据源混合到目标分布中,同时最小化混合源的经验风险。
方法:我们将第一个问题,即给定目标域的最优源混合估计,视为凸非凹组合极小极大问题,并提出了一种具有收敛性保证的高效随机算法。对于第二个问题,我们确定在某些情况下可以避免为每个目标域单独解决ERM,而是将目标最优模型的参数视为混合系数空间上的非线性函数。为此,我们证明在离线设置中,过参数化的GD训练神经网络可以学习这种函数。最后,我们还考虑了在线设置,并提出了标签高效的在线算法,该算法可以在任意混合系数序列下预测新模型的参数,同时享受最优遗憾。
效果:实验结果表明,我们的方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Sample-Conditioned Hypothesis Stability Sharpens Information-Theoretic Generalization Bounds
Ziqiao Wang Yongyi Mao
研究问题:通过构建"邻近假设"矩阵和一种新的样本条件假设稳定性概念,提供新的信息理论泛化保证。
动机:改进现有的信息理论边界,解决随机凸优化问题中现有信息理论边界的限制。
方法:利用大规模文本语料库和知识图谱训练ERNIE模型,将KG中的知识与文本语料库进行联合训练。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Robust Matrix Sensing in the Semi-Random Model
Xing Gao Yu Cheng
研究问题:本文旨在解决机器学习中的基本问题——低秩矩阵恢复,特别是在一个半随机模型中进行矩阵感测的问题。
动机:在实际应用中,低秩矩阵恢复问题可以通过凸优化即核范数最小化来解决,或者通过非凸优化。对于像矩阵感测和矩阵补全这样的低秩矩阵问题,已知在某些理想假设下,自然非凸目标的所有局部最优解也是全局最优的。
方法:本文提出了一种新的方法来处理半随机模型中的矩阵感测问题,其中攻击者可以添加任意数量的任意感测矩阵。具体来说,问题是从线性测量值b_i = ⟨A_i, X*⟩中恢复低秩矩阵X*,其中未知的感测矩阵子集满足限制等距性质(RIP),而其余的A_i则被攻击者选择。
效果:本文提出的下降式算法能够保证恢复出真实的矩阵X*。对于密切相关的半随机矩阵补全问题,先前的工作[CG18]表明,通过重新加权输入数据可以消除所有不良局部最优解。然而,对于矩阵感测问题,需要重新加权一组满足RIP的矩阵,这是NP难的问题。因此,我们构建了一个基于[KLL$^+$23]提出的半随机稀疏线性回归框架的算法,该算法在每次迭代中根据当前解决方案重新加权输入,然后采取一个保证在局部上表现良好的加权梯度步。
Sorting with Predictions
Xingjian Bai Christian Coester
研究问题:本文旨在通过学习增强的算法,探索排序问题的根本。
动机:现有的排序算法在预测错误的情况下效率低下,而学习增强的算法可以利用可能的错误预测来提高效率。
方法:我们考虑两种不同的设置,第一种是每个元素都被提供了其在排序列表中的位置预测,第二种是除了慢且准确的比较外,我们还假设存在一种“快速且粗略”的元素比较方式。对于这两种设置,我们设计了新的简单算法,只使用$O(\sum_i \log \eta_i)$个准确比较,其中$\eta_i$是对第i个元素的适当定义的预测误差。
效果:实验结果表明,与现有的自适应和非自适应排序算法相比,应用学习增强的算法在排序任务上具有潜力。
No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions
Tiancheng Jin Junyan Liu Chloé Rouyer William Chang Chen-Yu Wei Haipeng Luo
研究问题:现有的在线学习算法在处理对抗马尔可夫决策过程时,即使损失函数被对手任意选择,并且在转移函数固定的情况下,也只能在T轮交互后实现$\mathcal{O}(\sqrt{T})$的遗憾。
动机:尽管已有结果显示对抗性的转移函数使得无遗憾学习成为不可能,但本研究仍致力于开发能够处理对抗性损失和对抗性转移的算法,使遗憾度随着对手恶意程度的增加而平滑增长。
方法:我们首先提出了一种算法,其遗憾度为$\widetilde{\mathcal{O}}(\sqrt{T} + C^{P} )$,其中$C^{P}$用于衡量转移函数的敌对程度,最大可能为$\mathcal{O}(T)$。然后,我们进一步开发了一种黑箱降维方法来消除对$C^{P}$的需求。此外,我们还展示了该算法的进一步优化不仅可以保持相同的遗憾度界限,还可以同时适应更简单的环境(如[Jin et al. 2021]中的损失以某种随机约束的方式生成),并实现$\widetilde{\mathcal{O}}(U + \sqrt{UC^{L}} + C^{P})$的遗憾度,其中$U$是某种标准的差距相关系数,$C^{L}$是损失的损坏量。
效果:实验结果表明,与现有的自适应和非自适应排序算法相比,应用学习增强的算法在排序任务上具有潜力。
Direction-oriented Multi-objective Learning: Simple and Provable Stochastic Algorithms
Peiyao Xiao Hao Ban Kaiyi Ji
研究问题:多目标优化(MOO)在许多具有多个目标的机器学习问题中已成为有影响力的框架,如多准则学习和多任务学习(MTL)。
动机:本文提出了一种新的方向导向的多目标优化方法,通过在最优化线性组合目标(如MTL的平均损失或某些任务权重较高的加权损失)的方向附近正则化公共下降方向。
方法:我们提出了随机方向导向的多目标梯度下降(SDMGrad)和其变体SDMGrad-OS,它们都采用了简单的SGD类型的更新,并设计了高效的目标采样。我们还为这两种方法开发了全面的收敛性分析。
效果:实验表明,SDMGrad和SDMGrad-OS在找到ε精度的帕累托稳定点时实现了较低的样本复杂度,同时在向冲突避免(CA)方向移动时保持了小的ε级距离。对于常数级别的CA距离,它们的样本复杂度与已知的最佳情况(无有界函数值假设)相匹配。在一系列多任务监督学习和强化学习任务中,我们的方法在性能上与现有的梯度操作方法相当甚至有所提高。
Stochastic Approximation Approaches to Group Distributionally Robust Optimization
Lijun Zhang Peng Zhao Zhenhua Zhuang Tianbao Yang Zhi-Hua Zhou
研究问题:本文旨在研究组分布鲁棒优化(GDRO),以学习一个在$m$个不同分布上表现良好的模型。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:通过大规模文本语料库和知识图谱训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Sampling from Structured Log-Concave Distributions via a Soft-Threshold Dikin Walk
Oren Mangoubi Nisheeth K Vishnoi
研究问题:如何从受约束的对数凹分布中采样。
动机:该问题在贝叶斯推理和差分隐私等领域有重要应用。
方法:提出了一种适用于此设置的Dikin walk的泛化,通过添加一个由f的Lipschitz或平滑性属性得到的软阈值正则化项到K的障碍函数,使得提出的更新具有较高的Metropolis接受率。
效果:该方法在一系列结构化设置上改进了现有工作的运行时间,对于上述推理和隐私应用具有重要意义。
On the Power of SVD in the Stochastic Block Model
Xinyu Mao Jiapeng Zhang
研究问题:本研究旨在理解在聚类问题中谱方法的行为。
动机:观察到基于光谱的降维工具,如PCA或SVD,在许多应用中提高了聚类算法的性能,这引发了对谱方法在聚类过程中作用的疑问。
方法:本论文首先研究了在随机块模型(SBM)中,普通-SVD算法的作用。结果显示,在对称设置下,普通-SVD算法能正确恢复所有簇。
效果:这一结果回答了Van Vu(2018年《组合数学、概率与计算》)在对称设置下提出的一个开放性问题。
Learning Regularized Monotone Graphon Mean-Field Games
Fengzhuo Zhang Vincent Tan Zhaoran Wang Zhuoran Yang
研究问题:本文研究了正则化图均值场博弈(GMFGs)中的两个基本问题。
动机:为了解决以往对无正则化GMFGs和λ-正则化MFGs的分析需要更严格条件的问题,以及学习弱单调GMFGs中NE的算法效率低下的问题。
方法:首先建立了任何λ-正则化GMFGs(λ≥0)存在Nash均衡(NE)的理论,然后设计了一种离散时间算法,并推导出其收敛速度,同时开发并分析了在线学习过程中的动作值函数估计过程。
效果:实验结果表明,设计的算法效率高,能够有效地学习弱单调GMFGs中的NE。
Multitask Learning with No Regret: from Improved Confidence Bounds to Active Learning
Pier Giuseppe Sessa Pierre Laforgue Nicolò Cesa-Bianchi Andreas Krause
研究问题:如何在多任务学习中量化不确定性,特别是在无法获取任务相似性和特征的情况下。
动机:不确定性的量化对于许多下游应用(如在线或主动学习)至关重要。
方法:提出了一种新的置信区间计算方法,用于处理具有挑战性的无知设置下的多任务回归问题。该方法不需要独立同分布的数据,并可以直接应用于在线学习的遗憾约束。
效果:通过改进对多任务信息增益的分析,获得了新的遗憾保证,可以显著优于独立处理任务的方法。同时,还提出了一种新的在线学习算法,可以在不知道任务相似性参数的情况下实现这种改进的遗憾,即自动适应任务相似性。此外,还在合成数据和真实世界(药物发现)数据上验证了这些界限和算法的效果。
Local Convergence of Gradient Methods for Min-Max Games: Partial Curvature Generically Suffices
Guillaume Wang Lénaïc Chizat
研究问题:本文研究了二玩家零和可微分博弈的梯度方法向局部纳什均衡的收敛性。
动机:在连续时间设置中,已知当雅可比矩阵的对称部分(代表游戏的“潜力”部分)非零时,这些动态会收敛,而为零时可能会发散。作者展示了只要对称部分非零且反对称部分的的特征向量相对于核的位置一般,这些动态也会收敛。
方法:作者进一步研究了当对称部分远小于反对称部分时的收敛速度,并证明其通常取决于对称部分特征值的平均值,而不是最小值。
效果:为了说明结果,作者考虑了连续博弈的混合纳什均衡计算问题。结果显示,由于部分曲率,锥形粒子方法——优化权重和支持的混合策略——通常比固定支持方法更快地收敛。对于最小最大博弈,因此添加具有曲率的自由度是有益的,这可以解释为过度参数化的另一个好处。
Nash Regret Guarantees for Linear Bandits
Ayush Sawarni Soumyabrata Pal Siddharth Barman
研究问题:本文旨在解决随机线性Bandits框架中的一种强化的遗憾概念,即Nash遗憾。
动机:由于几何平均对应于被广泛研究的Nash社会福利(NSW)函数,因此这种形式化将Bandit算法的性能量化为它在各轮次中产生的集体福利。NSW已知满足公平性公理,因此对Nash遗憾的上界提供了一种原则性的公平性保证。
方法:本文考虑了在$mathsf{T}$轮次和一组手臂${\cal X}$的环境中的随机线性Bandits问题,其中与${\cal X}$中的每个手臂相关的随机奖励是一个非负的亚泊松随机变量。对于这种设置,作者开发了一种算法,实现了$O\left( \sqrt{\frac{d}{\mathsf{T}}} \log(\mathsf{T} |{\cal X}|)\right)$的Nash遗憾。此外,针对手臂集合${cal X}$不一定是有限的情况,作者获得了$O\left( \frac{d^\frac{5}{4}}{\sqrt{\mathsf{T}}} \log(\mathsf{T})\right)$的Nash遗憾上界。
效果:由于有界随机变量是亚泊松的,所以这些结果适用于有界、非负的奖励。作者的线性Bandit算法基于成功剔除法,并融入了新的技术见解,包括定制的集中边界和使用通过约翰椭球抽样与Kiefer–Wolfowitz最优设计相结合的方法。
Federated Learning with Client Subsampling, Data Heterogeneity, and Unbounded Smoothness: A New Algorithm and Lower Bounds
Michael Crawshaw Yajie Bao Mingrui Liu
研究问题:本文研究了具有潜在无界平滑度的客户子采样和数据异质性的联邦学习(FL)问题。
动机:实证证据表明,放松的平滑函数类(梯度的Lipschitz常数与梯度范数线性缩放)与某些神经网络的损失函数(如可能产生爆炸梯度的循环神经网络)非常相似,因此我们对此进行研究。
方法:我们引入了EPISODE++,这是第一个解决这个问题的算法。它为每个客户维护历史统计数据以构建控制变量,并决定当前轮次中抽样客户的剪辑行为。
效果:实验证明,EPISODE++在参与客户数量、减少通信轮次以及应对数据异质性方面实现了线性加速。同时,我们还证明了一个下界,显示在特定情况下,应用梯度剪辑的批量SGD收敛速度会受目标函数在子水平集内的最大梯度范数的显式依赖影响,这可能会很大。
Characterization of Overfitting in Robust Multiclass Classification
Jingyuan Xu Weiwei Liu
研究问题:在多类别分类问题中,给定类别数m、鲁棒性准确度查询数k和数据集中的测试示例数n,自适应算法能在多大程度上鲁棒地过拟合测试数据集?
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:通过等价地给出多类别分类问题的鲁棒过拟合偏差的接近匹配的上界和下界,解决了这个问题。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Stability-penalty-adaptive follow-the-regularized-leader: Sparsity, game-dependency, and best-of-both-worlds
Taira Tsuchiya Shinji Ito Junya Honda
研究问题:本文旨在开发一种通用的适应性学习率,称为稳定性-惩罚-自适应(SPA)学习率,以进一步推广FTRL在赌博问题上的适应性。
动机:现有的稀疏多臂赌博算法假设稀疏度级别$s leq k$是预先知道的,但在现实世界的场景中,这往往不是情况。
方法:利用SPA学习率和$s$-agnostic算法的技术,结合对FTRL输出变化的新分析,建立了第一个具有稀疏依赖性限制的BOBW算法。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。同时,新提出的BOBW算法在随机和敌对环境中都能实现接近最佳的遗憾。
Computing Optimal Nash Equilibria in Multiplayer Games
Youzhi Zhang Bo An Venkatramanan Siva Subrahmanian
研究问题:设计有效的算法来计算多人游戏中的纳什均衡(NE)仍是一个开放的挑战。
动机:在多人游戏中,找到优化给定目标函数的最优纳什均衡可以转化为一个混合整数双线性规划问题,但引入的辅助变量会产生大量的双线性项,使得求解变得困难。
方法:我们首先提出了一个基于一组关联计划的通用框架,然后开发了一种名为CRM的新型算法,该算法利用关联计划及其关系在双线性项的凸松弛后严格缩小可行解空间,同时尽量减少关联计划的数量以显著减少双线性项的数量。
效果:我们的技术可以显著降低时间复杂度,并且CRM的速度比最先进的基线快几个数量级。
An Optimal Structured Zeroth-order Algorithm for Non-smooth Optimization
Marco Rando Cesare Molinari Lorenzo Rosasco Silvia Villa
研究问题:本文旨在解决黑箱优化问题,特别是在非光滑设置中的问题。
动机:由于在实践中无法验证可微性和光滑性假设,因此需要一种算法来近似目标函数的梯度。
方法:本文提出了O-ZD,这是一种用于非光滑黑箱优化的结构有限差分算法。该方法利用了目标函数的光滑近似,并证明了其在随机正交方向集上近似其梯度。
效果:在满足假设的情况下,数值模拟显示该算法具有非常好的实际性能。
Learning Adversarial Low-rank Markov Decision Processes with Unknown Transition and Full-information Feedback
Canzhe Zhao Ruofeng Yang Baoxiang Wang Xuezhou Zhang Shuai Li
研究问题:本文研究了在全信息反馈设置中,具有对抗性损失的低秩MDPs。
动机:在未知转移概率核允许低秩矩阵分解的情况下,损失函数可能会对抗性地变化,但在每个剧集结束时会向学习者揭示。
方法:提出了一种基于策略优化的算法POLO。
效果:证明了POLO可以获得$\widetilde{O}(dA^{\frac{1}{2}}K^{\frac{3}{4}}\ln^{\frac{1}{4}}M/(1-\gamma)^2)$的遗憾保证,其中$d$是转移核的秩(因此也是未知表示的维度),$A$是动作空间的基数,$M$是模型类的基数,$\gamma$是折扣因子。
Corruption-Robust Offline Reinforcement Learning with General Function Approximation
Chenlu Ye Rui Yang Quanquan Gu Tong Zhang
研究问题:本文研究了在离线强化学习中,当对手可以对每个样本进行破坏时,如何找到一种对这种破坏具有鲁棒性并最小化与最优策略的次优差距的策略。
动机:由于对手可以在离线数据集上进行破坏,因此需要找到一种能够抵抗这种破坏的策略。
方法:借鉴在线强化学习中的不确定性加权技术,设计了一种新的不确定性权重迭代过程,并在批量样本上进行高效计算,提出了一种针对离线强化学习的抗破坏算法。
效果:在单策略覆盖和已知破坏程度的情况下,所提出的算法实现了一个次优界限,该界限因破坏而恶化,恶化程度为$\mathcal O(\zeta \cdot (text CC(\lambda,\hat{\mathcal F},\mathcal Z_n^H))^{1/2} (C(\hat{\mathcal F},\mu))^{-1/2} n^{-1})$。
Failure-Aware Gaussian Process Optimization with Regret Bounds
Shogo Iwazaki Shion Takeno Tomohiko Tanabe Mitsuru Irie
研究问题:解决现实世界中的黑箱优化问题,当观察成功时获取目标函数值,失败时只能得到失败的事实,且失败区域可能由多个未知数量的潜在约束条件构成。
动机:针对这一问题,提出了一种失败感知的高斯过程上置信界(F-GP-UCB)方法,该方法只需要对观察失败做出一个温和的假设,即最优解位于可行区域的内部。
方法:通过线性增长的成功观察次数,我们首次给出了F-GP-UCB的遗憾上限和收敛性。
效果:在几个基准函数上验证了F-GP-UCB的有效性,包括由材料合成实验启发的模拟函数。
Active Bipartite Ranking
James Cheshire Vincent Laurent Stephan Clémençon
研究问题:本文旨在开发一个主动学习框架,解决二部排名问题。
动机:二部排名问题在许多应用中都有涉及,如监督异常检测、信用评分和医疗诊断支持系统设计等。尽管被动环境下的二部排名算法已经得到了大量研究,但主动二部排名规则在文献中鲜有记录。由于其全局性,需要一种策略来按顺序标记难以与其他数据点进行比较的数据点。这个学习任务比二元分类更复杂,为此设计了许多主动算法。本文的目标是为这种选择性采样方法提供一个严格的公式化表述。
方法:我们提出了一个名为active-rank的专用算法,旨在最小化所构建的排名函数的ROC曲线与最优ROC曲线之间的欧氏距离。
效果:理论分析和数值结果表明,对于固定的置信水平和概率,active-rank是PAC(ε,δ)的。此外,我们还提供了一个问题相关的active-rank预期采样时间上限,并证明了任何PAC(ε,δ)算法的预期采样时间下限。实验结果强有力地证明了所提出算法的性能,并与更简单的方法进行了比较。
Accelerated Zeroth-order Method for Non-Smooth Stochastic Convex Optimization Problem with Infinite Variance
Nikita Kornilov Ohad Shamir Aleksandr Lobanov Darina Dvinskikh Alexander Gasnikov Innokentiy Andreevich Shibaev Eduard Gorbunov Samuel Horváth
研究问题:本文研究了无限方差噪声下,每轮两次函数评估的非平滑随机凸优化问题。
动机:在有限方差噪声的经典设置中,已有基于批量加速梯度方法的最优算法(Gasnikov等人,2022)。然而,有限方差的假设在许多实际场景中可能不成立。
方法:本文将(Sadiev等人,2023)中的一种改进的剪切加速梯度(随机相似三角形)方法适应于两点零阶查询。这种适应包括将批处理技术扩展到无限方差,这是一个具有显著贡献的非平凡任务。
效果:实验结果表明,该方法在各种实用场景中都能取得良好的效果。
Optimal approximation using complex-valued neural networks
Paul Geuchen Felix Voigtlaender
研究问题:本文旨在分析复值神经网络(CVNNs)的表达能力,通过研究其近似性质。
动机:尽管深度学习在实值情况下取得了巨大的成功,但其在复值情况下的理论基础仍然不足。
方法:通过对激活函数的研究,得出了适用于广泛类别激活函数的CVNNs的首次定量近似边界,包括流行的modReLU和复杂心形激活函数。
效果:结果显示,当神经元数量趋向无穷大时,近似误差将按$m^{-k/(2n)}$缩放,其中$m$是神经元的数量,$k$是目标函数的平滑度,$n$是输入维度。此外,证明了使用连续近似方法逼近$C^k$-函数的问题不可避免地受到维数灾难的影响。
Nearest Neighbour with Bandit Feedback
Stephen Pasteris Chris Hicks Vasilios Mavroudis
研究问题:本文旨在将最近邻规则应用于上下文强盗问题。
动机:在完全对抗的设置中,没有任何关于数据生成过程的假设,需要一种有效的算法来处理这个问题。
方法:结合足够快的(可能近似)自适应最近邻搜索数据结构,如导航网络,该算法非常高效,每次试验的运行时间是试验次数和动作数量的多项式对数,并且只占用准线性空间。
效果:我们给出了该算法的通用遗憾界限,并在欧几里得空间的随机强盗问题上进行了进一步的分析。此外,当应用于具有随机标签的在线分类问题时,该算法在特定条件下,每次试验只找到一个最近邻,与k-最近邻算法形成鲜明对比,同时可以实现次线性遗憾。
Adversarial Attacks on Online Learning to Rank with Click Feedback
Jinhang Zuo Zhiyao Zhang Zhiyong Wang Shuai Li Mohammad Hajiesmaili Adam Wierman
研究问题:在线学习排序(OLTR)算法可能受到攻击,导致实际损失,但关于OLTR的对抗性攻击的知识有限。
动机:研究针对多种OLTR变体的对抗策略,以揭示其脆弱性并提高其鲁棒性。
方法:首先对基于二进制反馈的经典随机Bandit的UCB算法进行攻击,然后设计针对基于位置和级联模型的UCB-based OLTR的攻击算法,最后提出一种通用的攻击策略,适用于任何点击模式下的算法。
效果:实验证明,所提出的攻击算法能够有效地操纵学习代理选择目标攻击项,且累积成本可控。
A Guide Through the Zoo of Biased SGD
Yury Demidovich Grigory Malinovsky Igor Sokolov Peter Richtárik
研究问题:尽管有大量关于无偏梯度估计器的随机梯度下降(SGD)的研究,但依赖有偏估计器的SGD变体却鲜有人研究。
动机:近年来,对有偏估计器SGD的兴趣日益增加,但现有文献缺乏连贯性,每篇新论文都依赖于不同的假设,缺乏对这些假设之间如何连接的清晰理解,可能导致混淆。
方法:我们通过建立现有假设之间的联系,呈现了其底层关系的全面图景。此外,我们还引入了一组新的、被证明弱于所有先前假设的假设,并使用它来在凸和非凸设置中对有偏SGD进行深入分析,提供了优于以前的结果。
效果:实验结果验证了我们的理论研究,展示了我们框架的有效性。
Boosting Adversarial Transferability by Achieving Flat Local Maxima
Zhijin Ge Xiaosen Wang Hongying Liu Fanhua Shang Yuanyuan Liu
研究问题:如何提高对抗性攻击的转移性?
动机:对抗性攻击在现实世界的应用越来越广泛,而其转移性是决定其实用性的关键因素。
方法:通过引入梯度范数惩罚到原始损失函数,使处于平坦局部区域的对抗性样本具有更好的转移性。同时,提出近似优化方法简化目标函数的梯度更新过程,以提高计算效率。
效果:实验结果表明,该方法能生成具有良好转移性的平坦局部区域对抗性样本,并在ImageNet兼容数据集上显著提高了对抗性转移性,优于现有最先进的攻击方法。
Towards Data-Algorithm Dependent Generalization: a Case Study on Overparameterized Linear Regression
Jing Xu Jiaye Teng Yang Yuan Andrew C Yao
研究问题:机器学习中的主要开放性问题是在过参数化的情况下描述泛化,其中大多数传统的泛化界限即使在过参数化的线性回归中也会变得不一致。
动机:这种失败的原因往往在于混淆了训练算法和底层数据分布之间的关键互动。
方法:本文提出了一种称为数据-算法兼容性的概念,它考虑了整个依赖于数据的训练轨迹的泛化行为,而不是传统的最后迭代分析。
效果:通过研究使用梯度下降法解决过参数化线性回归的问题,我们的理论结果表明,如果我们考虑到早期停止迭代,那么泛化可以在问题实例上具有比之前的最后迭代分析明显弱的限制条件下成立。
Training Fully Connected Neural Networks is $\exists\mathbb{R}$-Complete
Daniel Bertschinger Christoph Hertrich Paul Jungeblut Tillmann Miltzow Simon Weber
研究问题:寻找一个两层全连接神经网络的最优权重和偏差,以拟合一组给定的数据点。
动机:目前预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Optimal cross-learning for contextual bandits with unknown context distributions
Jon Schneider Julian Zimmert
研究问题:在Balseiro等人的“交叉学习”设置中,设计上下文强盗算法。
动机:当前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing
Nived Rajaraman Fnu Devvrit Aryan Mokhtari Kannan Ramchandran
研究问题:本研究旨在解决预训练模型参数过多的问题,通过理论分析了解裁剪+微调框架成功降低模型复杂度的原因。
动机:尽管裁剪+微调的流程在降低模型复杂度上取得了巨大成功,但背后的理论机制尚不清楚。
方法:本研究以矩阵感测问题为例,对过参数化模型进行裁剪和微调,并研究了均方误差的近似局部最小值,以及平滑群Lasso正则化项。
效果:研究结果显示,裁剪掉所有低于特定$ell_2$-范数阈值的列可以得到一个接近真实值且列数最少的解。此外,后续的微调阶段中,从$U_{text{prune}}$开始的梯度下降会以线性速度收敛到其极限。这些结果为理解正则化在裁剪中的作用提供了洞见。
Riemannian stochastic optimization methods avoid strict saddle points
Ya-Ping Hsieh Mohammad Reza Karimi Jaghargh Andreas Krause Panayotis Mertikopoulos
研究问题:在黎曼流形上的随机黎曼优化算法是否能够保证以1的概率避免鞍点。
动机:许多现代机器学习应用可以表述为黎曼流形上的最小化问题,但结果的最小化问题并非地几何凸的,因此所选求解器的收敛性无法得到保证。
方法:本论文研究的是一族基于缩回的方法,除了可能比黎曼梯度下降法有更低的每次迭代成本外,还包括其他广泛使用的算法,如普通凸空间的自然策略梯度方法和镜像下降法。
效果:在对环境流形和提供梯度信息的预言机进行温和假设的情况下,研究表明,所研究的策略以1的概率避免了严格的鞍点/子流形,无论初始条件如何。这一结果为在流形上使用梯度方法提供了重要的验证,因为它表明,几乎总是,随机黎曼算法的最终状态只能是局部极小值。
Exact recovery and Bregman hard clustering of node-attributed Stochastic Block Model
Maximilien Dreveton Felipe Schreiber Fernandes Daniel R. Figueiredo
研究问题:如何同时利用网络信息(边)和节点信息(属性)设计高性能的聚类算法。
动机:在许多情况下,节点的属性是相关的,可以用于识别节点集群。因此,需要联合利用网络信息和节点信息来设计高效的聚类算法。
方法:建立了一个通用的网络和节点属性模型,并提出了信息论标准以实现社区标签的精确恢复。此外,还提出了一种迭代聚类算法,该算法最大化联合概率分布,假设网络交互和节点属性的概率分布在指数族中。
效果:通过大量的数值实验,包括合成数据和真实数据,表明了所提出的算法优于只利用网络或只利用属性信息的算法,以及最近提出的同时使用两种信息源进行聚类的算法。这项研究为在具有节点属性的网络中推断社区标签提供了深入的理论极限和实用技术。
Generalized equivalences between subsampling and ridge regularization
Pratik Patil Jin-Hong Du
研究问题:本文旨在建立子采样和岭正则化在集成岭估计器之间的精确结构和风险等价性。
动机:为了解决现有的预训练语言模型对结构化知识的利用不足的问题,提出通过结合大规模文本语料库和知识图谱来训练增强的语言表示模型ERNIE。
方法:采用大规模文本语料库和知识图谱进行联合训练,同时充分利用词汇、句法和知识信息,以更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Provably Robust Temporal Difference Learning for Heavy-Tailed Rewards
Semih Cayci Atilla Eryilmaz
研究问题:在强化学习中,当奖励分布具有重尾特性时,现有的方法可能会因频繁的统计异常值而失败。
动机:为了解决这一问题,本文提出了一种动态梯度裁剪机制,并证明其可以显著提高强化学习方法对重尾奖励分布的鲁棒性。
方法:通过引入动态梯度裁剪机制,改进了时间差分学习和自然演员-评论家算法。
效果:理论分析和实验结果表明,这种方法可以在期望和大概率情况下实现对重尾奖励分布的鲁棒性,同时降低了随机梯度的偏差和方差。
An active learning framework for multi-group mean estimation
Abdellah Aznag Rachel Cummings Adam N. Elmachtoub
研究问题:在多个数据分布未知的群体中,如何通过主动学习框架动态收集样本以最小化均值估计器的方差向量的$p$-范数。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
On the Asymptotic Learning Curves of Kernel Ridge Regression under Power-law Decay
Yicheng Li Haobo Zhang Qian Lin
研究问题:神经网络中的“良性过拟合现象”对统计学习理论的“偏差-方差权衡”原则提出了挑战。
动机:过参数化的神经网络的泛化能力可以通过神经切线核回归来近似,因此,核岭回归的超额风险曲线(即学习曲线)最近引起了越来越多的关注。
方法:在温和且更现实的假设下,我们严格地在核和目标函数的特征值满足幂律衰减条件的情况下,从理论上全面刻画了学习曲线。
效果:学习曲线详细阐述了正则化参数选择、源条件和噪声的影响和相互作用。特别是,我们的研究结果表明,只有当噪声水平较小时,过参数化的神经网络中才会出现“良性过拟合现象”。
Information Theoretic Lower Bounds for Information Theoretic Upper Bounds
Roi Livni
研究问题:本文探讨了输出模型与经验样本之间的互信息和随机凸优化算法的泛化之间的关系。
动机:尽管人们对信息理论的泛化边界越来越感兴趣,但尚不清楚这些边界是否能为各种学习算法的卓越性能提供见解。
方法:通过对随机凸优化的研究,我们发现对于真正的风险最小化,需要依赖维度的互信息。
效果:这表明现有的信息理论泛化边界无法捕捉到像SGD和正则化ERM这样具有维度独立样本复杂度的算法的泛化能力。
Stability and Generalization of the Decentralized Stochastic Gradient Descent Ascent Algorithm
Miaoxi Zhu Li Shen Bo Du Dacheng Tao
研究问题:本文旨在解决在各种机器学习任务中,如何以分散的方式求解最小最大问题。
动机:尽管现有的理论研究主要关注分散式最小最大算法的收敛速度和通信复杂度,但对它们的泛化能力关注不足。
方法:本文采用算法稳定性的方法,研究了分散式随机梯度下降上升(D-SGDA)算法的原-对偶泛化界,包括凸-凹和非凸-非凹设置。
效果:理论分析表明,分散结构并未破坏D-SGDA的稳定性和泛化性,暗示在某些情况下,其可以像普通的SGDA一样进行泛化。此外,结果还分析了不同拓扑结构对D-SGDA算法泛化界的影响,并通过数值实验验证了理论发现。
Contrastive Moments: Unsupervised Halfspace Learning in Polynomial Time
Xinyuan Cao Santosh Vempala
研究问题:如何学习高维空间中带有边缘的高维半空间,当环境分布是未知的一维对称对数凹分布的d倍乘积的仿射变换时。
动机:在没有标签的情况下,通过删除至少一个分量分布中的ε部分数据来引入半空间,建立隐藏半空间在这种分布假设下的唯一(和高效)可识别性。
方法:使用仅适合的重新加权的经验分布的前两个矩,即对比矩;算法的分析使用关于广义迪利克雷多项式的经典事实,并依赖于截断对数凹分布的矩比的新单调性属性。
效果:该算法在维度和1/ε上的样本和时间复杂度都是多项式的。在先前的工作基础上,我们通过总变分(TV)距离,而不是现有的可能超过多项式的矩界保证,提供了多项式时间的保证。此外,我们的工作也是在这个设置中首次超越高斯的工作。
Zero-Regret Performative Prediction Under Inequality Constraints
Wenjing YAN Xuanyu Cao
研究问题:本文旨在研究在不平等约束下的表现预测问题,并寻找最优解。
动机:目前的表现预测研究仅关注无约束问题,忽视了许多现实世界的学习问题都受到约束这一事实。
方法:本文开发了一个鲁棒的原-对偶框架,该框架只需要近似梯度即可达到一定的精度,性能与没有表现性的稳定随机原-对偶算法相同。基于此框架,作者提出了一种适用于位置族的自适应原-对偶算法。
效果:分析表明,所提出的自适应原-对偶算法在时间范围为T时,可以达到O(√T)的遗憾和约束违规,并且只需使用√T + 2T个样本。通过数值模拟验证了算法和理论结果的有效性。
Bandit Social Learning under Myopic Behavior
Kiarash Banihashem MohammadTaghi Hajiaghayi Suho Shin Aleksandrs Slivkins
研究问题:本研究关注在线平台上的评论引发的社会学习动态。
动机:目前的表现预测研究仅关注无约束问题,忽视了许多现实世界的学习问题都受到约束这一事实。
方法:本文开发了一个鲁棒的原-对偶框架,该框架只需要近似梯度即可达到一定的精度,性能与没有表现性的稳定随机原-对偶算法相同。基于此框架,作者提出了一种适用于位置族的自适应原-对偶算法。
效果:分析表明,所提出的自适应原-对偶算法在时间范围为T时,可以达到O(√T)的遗憾和约束违规,并且只需使用√T + 2T个样本。通过数值模拟验证了算法和理论结果的有效性。
Projection-Free Methods for Stochastic Simple Bilevel Optimization with Convex Lower-level Problem
Jincheng Cao Ruichen Jiang Nazanin Abolfazli Erfan Yazdandoost Hamedani Aryan Mokhtari
研究问题:本文研究了一类随机双层优化问题,即随机简单双层优化,其中我们最小化另一个随机凸优化问题的最优解集上的平滑随机目标函数。
动机:针对双层优化问题,提出了新的随机双层优化方法,该方法通过随机切割平面局部近似下层问题的解集,然后使用降低方差的技术进行条件梯度更新以控制使用随机梯度引起的误差。
方法:对于上层函数为凸的情况,我们的方法需要$\mathcal{O}(\max\\{1/\epsilon_f^{2},1/\epsilon_g^{2}\\})$的随机查询来获得一个对上层$\epsilon_f$-最优和对下层$\epsilon_g$-最优的解决方案。这一保证改进了先前已知的最好复杂度$\mathcal{O}(\max\\{1/epsilon_f^{4},1/epsilon_g^{4}\\})$。
效果:对于上层函数为非凸的情况,我们的方法最多需要$mathcal{O}(\max\\{1/\epsilon_f^{3},1/\epsilon_g^{3}\})$的随机查询找到一个$(\epsilon_f, \epsilon_g)$-稳定点。在有限和设置中,我们的方法所需的随机查询次数分别为$\mathcal{O}(\sqrt{n}/\epsilon)$和$\mathcal{O}(\sqrt{n}/epsilon^{2})$,其中$\epsilon=\min \\{\epsilon_f,epsilon_g\\}$。
Unified Enhancement of Privacy Bounds for Mixture Mechanisms via $f$-Differential Privacy
Chendi Wang Buxin Su Jiayuan Ye Reza Shokri Weijie J Su
研究问题:如何提高使用$f$-DP的洗牌模型和随机初始化一次差分隐私梯度下降(DP-GD)的隐私边界。
动机:现有的随机性如随机初始化、随机批量子采样和混洗在证明差分隐私界限时难以考虑,因为它们会为算法的输出引入难以分析的混合分布。
方法:通过推导洗牌模型的超越现有基于$(epsilon,\delta)$-DP结果的交易函数闭型表达式,以及研究随机初始化对一次迭代DP-GD隐私的影响,来改善隐私边界。
效果:数值计算表明,随机初始化可以增强DP-GD的隐私性。此外,我们的研究还发现了一种新的交易函数不等式,该不等式暗示了$F$-散度的联合凸性,这有助于我们更好地理解和改进使用$f$-DP的混合机制的隐私性。
On Differentially Private Sampling from Gaussian and Product Distributions
Badih Ghazi Xiao Hu Ravi Kumar Pasin Manurangsi
研究问题:在保持差分隐私约束下,如何生成与未知分布P相近的样本。
动机:解决在保护用户隐私的同时,对未知分布进行有效采样的问题。
方法:针对多元高斯分布的不同假设(已知协方差、未知有界协方差和未知无界协方差),提出新的差分隐私采样算法。
效果:在已知协方差和未知有界协方差的设定中,新算法实现了接近最优的样本复杂度;当P为二进制超立方体上的乘积分布时,得到了纯差分隐私算法,而此前仅知道近似差分隐私算法(样本复杂度稍差)。
Online Corrupted User Detection and Regret Minimization
Zhiyong Wang Jize Xie Tong Yu Shuai Li John C.S. Lui
研究问题:设计有效的在线学习算法,以从可能被破坏的用户行为中进行学习,并准确在线识别被破坏的用户。
动机:在现实世界的在线网络系统中,多个用户通常会顺序进入系统。对于点击欺诈和虚假评论等应用,一些用户可能会恶意执行破坏性行为来欺骗系统。因此,需要设计高效的在线学习算法来从可能被破坏的用户行为中进行学习,并准确在线识别被破坏的用户。
方法:提出了一种名为LOCUD的重要在线学习问题,以从破坏性行为中学习和利用未知的用户关系,加快学习速度,并在在线环境中识别被破坏的用户。为了从可能被破坏的用户之间稳健地学习和利用未知的关系,我们提出了一种新的基于奖励的算法RCLUB-WCU。为了检测被破坏的用户,我们根据RCLUB-WCU推断出的用户关系设计了一种新颖的在线检测算法OCCUD。
效果:通过大量的实验,我们的方法在性能上超过了以前的奖励算法,并且对被破坏用户的检测精度很高。
On the Properties of Kullback-Leibler Divergence Between Multivariate Gaussian Distributions
Yufeng Zhang Jialu Pan Kenli Li Wanwei Liu Zhenbang Chen Xinwang Liu J Wang
研究问题:本文主要研究了多元高斯分布之间的Kullback-Leibler散度的性质。
动机:Kullback-Leibler散度是衡量概率分布之间差异的重要指标,对于理解多元高斯分布的特性具有重要意义。
方法:通过理论分析,研究了多元高斯分布之间的Kullback-Leibler散度的上确界和下确界,并得出了一些有用的性质。
效果:这些理论结果有助于深化我们对多元高斯分布的理解,并在深度学习、强化学习和样本复杂度研究中找到了应用。
Federated Conditional Stochastic Optimization
Xidong Wu Jianhui Sun Zhengmian Hu Junyi Li Aidong Zhang Heng Huang
研究问题:如何在联邦学习中进行非凸条件随机优化。
动机:随着大规模分布式数据训练模型的需求增加,对通信高效的分布式优化算法的需求也在增加。
方法:提出了第一种具有条件随机梯度估计器和基于动量的算法(即FCSG-M)的联邦条件随机优化算法(FCSG)。通过方差减少设计了一个加速算法(Acc-FCSG-M)以实现最佳样本和通信复杂度。
效果:与现有的FL中的元学习优化分析相比,联邦条件随机优化考虑了任务的样本。大量实验结果验证了这些算法的效率。
Bilevel Coreset Selection in Continual Learning: A New Formulation and Algorithm
Jie Hao Kaiyi Ji Mingrui Liu
研究问题:本文旨在解决基于复习的持续学习中,用于代表以前任务的代表性样本的核心集选择问题。
动机:在持续学习中,核心集通常用于记忆重播缓冲区以代表以前任务的代表性样本,但传统的二层核心集选择方法计算成本高。
方法:提出一种新的二层公式化方法,其中内部问题尝试找到一个模型最小化从给定概率分布采样的预期训练误差,外部问题则学习一个具有大约K个非零条目的概率分布,使得内部问题中学习的模型在整个数据上最小化训练误差。
效果:通过引入基于平滑的Top-K损失的新正则化器,确保学到的概率具有大约K个非零条目。设计了新的优化算法,该算法在持续学习的基准数据集上以O(1/ε^4)的计算复杂度收敛到ε-稳定点。实验结果表明,该方法在各种设置下显著优于竞争性基线。
Online Clustering of Bandits with Misspecified User Models
Zhiyong Wang Jize Xie Xutong Liu Shuai Li John C.S. Lui
研究问题:如何设计出对用户模型误设定具有鲁棒性的聚类线性Bandit算法。
动机:现有的聚类线性Bandit算法需要准确指定线性用户模型,当这个关键假设不成立时,算法可能会失败。对于更实际的、用户模型误设定的场景,能否设计出鲁棒的聚类线性Bandit算法仍是一个开放的问题。
方法:我们首次提出了聚类线性Bandit与误设定用户模型(CBMUM)的重要问题,并设计了两种鲁棒的CB算法RCLUMB和RSCLUMB,这两种算法可以适应由模型误设定引起的用户偏好估计不准确和错误聚类的问题。
效果:在比之前CB工作更宽松的假设下,我们的算法得到了$O(\epsilon_*T\sqrt{md\log T} + d\sqrt{mT}\log T)$的遗憾上界,这与之前的CB工作在渐近情况下的下界相匹配,并在几种退化情况下也匹配了最先进的结果。我们在合成数据和真实世界数据上的实验都表现出优于以往算法的性能。
Bayesian Optimization with Cost-varying Variable Subsets
Sebastian Shenghong Tay Chuan-Sheng Foo Daisuke Urano Richalynn Leong Bryan Kian Hsiang Low
研究问题:本文提出了一种贝叶斯优化问题,其中每次迭代中,学习者选择一组查询变量并指定其值,而其余的则随机抽样。每个选定的子集都有一个关联的成本。这为学习者带来了新的挑战,即在更有针对性的学习和减少成本之间进行权衡。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:本文提出了一种新的基于高斯过程上界置信区间的算法来解决BOCVS问题,该算法是无遗憾的。我们分析了更便宜的控制集的可用性如何帮助探索和减少总体遗憾。
效果:实验结果表明,我们的算法可以找到比相同预算的可比基线更好的解决方案。
On the Overlooked Structure of Stochastic Gradients
Zeke Xie Qian-Yuan Tang Mingming Sun Ping Li
研究问题:本研究旨在探索深度神经网络中随机梯度的结构和重尾性,以及其对优化和泛化的影响。
动机:尽管一些研究试图通过梯度噪声的重尾特性来解释深度学习中的随机优化成功,但其他研究则提供了反对梯度噪声重尾假设的理论和实证证据。然而,对于深度学习中随机梯度的结构和重尾性的正式统计分析仍然鲜有研究。
方法:本研究主要进行了两项贡献。首先,我们对参数和迭代之间的随机梯度和梯度噪声的分布进行了正式的统计分析。我们的统计测试发现,维度相关的梯度通常表现出幂律重尾性,而迭代相关的梯度和由小批量训练引起的随机梯度噪声通常不表现出幂律重尾性。其次,我们发现随机梯度的协方差谱具有被前人研究所忽视的幂律结构,并展示了其对深度神经网络训练的理论影响。
效果:我们的研究挑战了现有的认知,并为深度学习中随机梯度的结构提供了新的见解。
$L_2$-Uniform Stability of Randomized Learning Algorithms: Sharper Generalization Bounds and Confidence Boosting
Xiaotong Yuan Ping Li
研究问题:将已有的最优概率边界从确定性学习算法扩展到随机化学习领域。
动机:为了提高随机化学习算法的泛化性能,需要对现有的稳定性定义进行扩展和改进。
方法:提出了一种新的L2一致稳定性概念,并在经典的置信度提升框架内证明了一种强指数边界。
效果:通过这种方法,我们得到了一种在数据和算法随机性上具有高概率联合最优泛化性能的基于bagging的元算法,并将其推广到自然衰减学习率的凸或非凸优化问题,从而获得了更精确的指数边界。
Federated Spectral Clustering via Secure Similarity Reconstruction
Dong Qiao Chris Ding Jicong Fan
研究问题:本文旨在提出一种安全的联邦学习核因子分解方法,用于在分布式数据集上进行联邦谱聚类。
动机:尽管联邦学习在保护信息隐私方面具有显著优势,但关于安全联邦无监督学习,特别是聚类的研究仍然有限。
方法:我们的方法隐式地构造了一个近似的核矩阵,以便在隐私保护的限制下进行谱聚类。我们还提供了优化算法的收敛保证,高斯核矩阵的重构误差边界,以及我们方法的正确聚类的充分条件。
效果:我们在合成和真实数据集上的数值结果表明,与基线相比,我们的方法既高效又准确。
Deep Contract Design via Discontinuous Networks
Tonghan Wang Paul Duetting Dmitry Ivanov Inbal Talgam-Cohen David C. Parkes
研究问题:本文旨在通过深度学习技术,实现合同设计的自动化,以优化合同效果。
动机:现有的合同设计方法缺乏对复杂情况的适应性和效率,需要一种能够自动设计最优合同的方法。
方法:提出了一种新的表示方法——非连续ReLU(DeLU)网络,将委托人的效用表示为代理人采取特定行动的合同设计的分段仿射函数。DeLU网络隐式地学习了代理人的激励兼容性约束和委托人的效用最大化目标的闭型表达式,并通过线性规划或解决最优合同的内部点方法支持每个部分的并行推理。
效果:实验结果表明,该方法能够在少量训练样本的情况下近似委托人的效用函数,并在有大量行动和结果的问题上找到近似最优合同。
A Finite-Particle Convergence Rate for Stein Variational Gradient Descent
Jiaxin Shi Lester Mackey
研究问题:本文旨在为Stein变分梯度下降(SVGD)算法提供有限的粒子收敛速率,这是一种常用的用粒子集合近似概率分布的算法。
动机:当前的目标分布是次高斯分布且具有Lipschitz得分时,SVGD算法及其步骤大小序列可以驱动核Stein分歧度以${1/}{\sqrt{log\log n}}$的速度趋近于零。
方法:通过使用$n$个粒子和适当的步长序列,SVGD能够将核Stein分歧度驱动到零。
效果:实验结果表明,当目标分布是次高斯分布且具有Lipschitz得分时,SVGD算法及其步骤大小序列可以将核Stein分歧度以${1/}{\sqrt{\log\log n}}$的速度趋近于零。
Efficient Testable Learning of Halfspaces with Adversarial Label Noise
Ilias Diakonikolas Daniel Kane Vasilis Kontonis Sihan Liu Nikos Zarifis
研究问题:如何在存在对抗性标签噪声的情况下,利用高斯分布进行半空间的可测试学习。
动机:在最近引入的可测试学习模型中,需要产生一个测试器-学习器,如果数据通过测试器的检验,那么就可以信任鲁棒学习器在该数据上的输出。
方法:该算法采用迭代软定位技术,辅以适当的测试器,确保数据分布与高斯分布足够相似。
效果:实验结果表明,该算法的时间复杂度为$\text{poly}(d/\epsilon)$,并且输出的半空间误分类误差为$O(text{opt})+\epsilon$,其中$text{opt}$是最佳拟合半空间的0-1误差。此外,该算法可以很容易地适应并生成一个只需要$d ~ \text{polylog}(1/\epsilon)$个标记示例的高效且可测试的主动学习器。
Functional Equivalence and Path Connectivity of Reducible Hyperbolic Tangent Networks
Matthew Farrugia-Roberts
研究问题:理解人工神经网络的学习过程需要阐明学习发生的参数空间结构。
动机:对于许多架构,几乎所有的参数都有一个简单且记录良好的功能等价类,但也存在少数可简化的参数,其功能等价类由于网络单元之间的冗余而更丰富。
方法:本文为单隐藏层双曲正切架构的单元冗余和可简化的功能等价类提供了算法表征。
效果:研究发现,这样的功能等价类是分段线性路径连通集,对于大多数冗余单元的参数,集合的直径最多为7个线性段。
Logarithmic Bayes Regret Bounds
Alexia Atsidakou Branislav Kveton Sumeet Katariya Constantine Caramanis sujay sanghavi
研究问题:本文旨在为贝叶斯多臂赌博机(Bayesian bandits)推导
动机:对于许多架构,几乎所有的参数都有一个简单且记录良好的功能等价类,但也存在少数可简化的参数,其功能等价类由于网络单元之间的冗余而更丰富。
方法:本文为单隐藏层双曲正切架构的单元冗余和可简化的功能等价类提供了算法表征。
效果:研究发现,这样的功能等价类是分段线性路径连通集,对于大多数冗余单元的参数,集合的直径最多为7个线性段。
Hardness of Low Rank Approximation of Entrywise Transformed Matrix Products
Tamas Sarlos Xingyou Song David Woodruff Qiuyi Zhang
研究问题:本文旨在研究在低秩近似设置中,如何找到对$f(U cdot V)$的好的秩$k$近似,其中$U, V^\top \in \mathbb{R}^{n \times r}$是给定的,$r = O(log(n))$,$f(x)$是一个通用标量函数。
动机:先前关于次线性低秩近似的研究显示,如果满足条件(1)$U = V^\top$和(2)$f(x)$是PSD核函数,那么存在一个时间复杂度为$O(nk^{\omega-1})$的常数相对误差近似算法,其中$\omega \approx 2.376$是矩阵乘法的指数。
方法:我们给出了这个问题的条件时间硬性结果,证明条件(1)和(2)实际上对于获得优于$n^{2-o(1)}$时间的相对误差低秩近似是必要的。我们还给出了新的基于强指数时间假设(SETH)的缩减,这些缩减依赖于下界平坦稀疏向量的杠杆分数,即使当变换矩阵$f(UV)$的秩和目标秩都是$n^{o(1)}$时,以及当$U = V^\top$时也适用。
效果:最后,我们通过给出一个时间复杂度为$O(n \cdot \text{poly}(k, 2^p, 1/\epsilon))$的相对误差近似算法和一个快速的$O(n \cdot \text{poly}(k, p, 1/\epsilon))$的加性误差近似来证明我们的下界是紧的。此外,由于我们的低秩算法依赖于矩阵向量产品子程序,我们的下界扩展显示计算$f(UV)W$,即使是一个小矩阵$W$,也需要$\Omega(n^{2-o(1)})$的时间。
On Generalization Bounds for Projective Clustering
Maria Sofia Bucarelli Matilde Fjeldsø Larsen Chris Schwiegelshohn Mads Toftrup
研究问题:本文旨在研究在给定一组点的情况下,如何进行聚类以将点集划分为k个簇,使得每个点被分配到的中心尽可能接近。
动机:目前的聚类方法大多选择中心为点本身,导致著名的k-median和k-means目标。本文考虑选择中心为j维子空间,从而引出子空间聚类的问题。
方法:通过学习已知但固定的分布D下的样本集合P的解,计算其与最优聚类之间的收敛速度。
效果:对于基于中心的优化目标,本文展示了一个收敛率为O(√k/n)的结果。对于子空间聚类问题,本文展示了一个收敛率为O(√(kj^2)/n)的结果。这些是大多数这些问题的首次可证明的界限。
A Combinatorial Algorithm for Approximating the Optimal Transport in the Parallel and MPC Settings
Nathaniel Lahn Sharath Raghvendra Kaiyi Zhang
研究问题:如何有效地计算最佳传输距离,并实现并行化?
动机:现有的精确和近似的组合算法难以进行并行化,这限制了最佳传输距离的计算效率。
方法:我们引入了首个找到最佳传输距离的加性ε-近似值的并行组合算法。该算法在大规模并行计算框架(如Hadoop和MapReduce)中,能在O(log(n)/ε^2)轮次内计算出ε-近似的最佳传输计划,每台机器需要O(n/ε)的空间。
效果:实验表明,我们的组合算法比现有的最佳传输近似求解器更快,特别是在n较大时,能显著提升计算效率。
Faster Relative Entropy Coding with Greedy Rejection Coding
Gergely Flamich Stratis Markou José Miguel Hernández-Lobato
研究问题:本文旨在解决相对熵编码(REC)算法运行速度慢和应用受限的问题。
动机:尽管REC算法具有实践效益,但由于其运行速度慢或限制性假设,尚未得到广泛应用。
方法:本文提出了贪婪拒绝编码(GRC),这是一种基于拒绝采样的算法,适用于任意概率空间和分区方案。我们首先证明了GRC几乎肯定终止并返回无偏的$Q$样本,然后专注于GRC的两个变体,即GRCS和GRCD。
效果:对于连续的$Q$和$P$在实数上,且$dQ/dP$为单峰分布,GRCS的预期运行时间上限为$\beta D_{KL}(Q||P) + \mathcal{O}(1)$,其中$\beta approx 4.82$,并且其预期代码长度是最优的。这显著改善了先前最先进的方法A*编码(Flamich等人,2022)。在相同的假设下,我们实验观察到并推测GRCD的预期运行时间和代码长度上限为$D_{KL}(Q||P) + \mathcal{O}(1)$。最后,我们在MNIST上使用变分自动编码器评估GRC,并显示修改的训练目标和代码长度压缩方法可以进一步提高压缩效率。
Aiming towards the minimizers: fast convergence of SGD for overparametrized problems
Chaoyue Liu Dmitriy Drusvyatskiy Misha Belkin Damek Davis Yian Ma
研究问题:如何使随机梯度下降法在插值区间内具有与确定性梯度下降法相同的最坏情况迭代复杂度。
动机:现有的保证方法要求随机梯度下降法采取小步长,导致收敛速度慢得多。
方法:提出了一种插值区间内的正则条件,使得随机梯度下降法在每次迭代中只使用单个采样梯度(或一个小批量),并具有与确定性梯度下降法相同的最坏情况迭代复杂度。
效果:通过训练具有线性输出层的足够宽的前馈神经网络,证明了该条件成立。
Near-Optimal $k$-Clustering in the Sliding Window Model
David Woodruff Peilin Zhong Samson Zhou
研究问题:如何在滑动窗口模型中实现接近最优的$(k,z)$-聚类。
动机:在许多应用中,近期的数据可以提供更准确的信息,而旧的数据在一定时间后会过期。滑动窗口模型能够捕捉这些期望的特性,因此对滑动窗口模型中的聚类有着大量的关注。
方法:本文提出了第一个在滑动窗口模型中实现接近最优的$(k,z)$-聚类的算法。该算法使用了$\frac{k}{\min(varepsilon^4,\varepsilon^{2+z})}\,\text{polylog}\frac{n\Delta}{\varepsilon}$个词的空间,当点来自$[\Delta]^d$时,这显著改善了Braverman等人(SODA 2016),Borassi等人(NeurIPS 2021)和Epasto等人(SODA 2022)的工作。
效果:我们开发了一个名为在线核心集的数据结构进行聚类,它不仅输出流的末尾的核心集,还输出所有前缀的核心集。我们的在线核心集从流中采样了$\frac{k}{\min(\varepsilon^4,\varepsilon^{2+z})}\,\text{polylog}\frac{nDelta}{\varepsilon}$个点。然后我们证明任何在线核心集都需要$Omega\left(\frac{k}{varepsilon^2}\log n\right)$个样本,这表明构造离线核心集的问题,即构造在线核心集是严格更难的。我们的结果也扩展到$[\Delta]^d$上的一般度量,并且在考虑一个$Omega\left(\frac{k}{varepsilon^{2+z}}\right)$的离线核心集大小下是接近最优的。
The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model
Laixi Shi Gen Li Yuting Wei Yuxin Chen Matthieu Geist Yuejie Chi
研究问题:本文旨在通过分布稳健的马尔可夫决策过程(RMDPs)框架,研究强化学习中的模型鲁棒性。
动机:尽管已有一些努力,但无论使用哪种不确定性集,RMDPs的样本复杂度都远未被充分理解;特别是,现有的上界和下界之间存在很大的差距,而且尚不清楚当与标准RL进行基准测试时,分布稳健性是否具有任何统计含义。
方法:假设可以使用生成模型,我们使用一种名为分布稳健值迭代的基于模型的算法,推导出当不确定性集通过总变差或χ²散度在整个不确定性水平范围内测量时的RMDPs的样本复杂度,并开发了最小最大下界以衡量其紧密程度。
效果:我们的结果不仅加强了现有技术在上下界两个方向的进步,而且还带来了令人惊讶的信息,即学习RMDPs并不一定比标准MDPs更容易或更困难。在总变差的情况下,我们建立了RMDPs的最小最大优化样本复杂度,它总是小于标准MDPs的。在χ²散度的情况下,我们建立了RMDPs的样本复杂度,它在无穷大时以线性方式增长,并且当接近无穷大时,与有效范围呈多项式因子关系。
Fast Asymptotically Optimal Algorithms for Non-Parametric Stochastic Bandits
Dorian Baudry Fabien Pesquerel Rémy Degenne Odalric-Ambrym Maillard
研究问题:非参数随机带的遗憾最小化问题。
动机:当奖励已知有上限时,存在渐近最优算法,其渐近遗憾取决于Kullback-Leibler散度的下确界(KL)。这些算法计算量大且需要存储所有过去的奖励,因此通常使用较简单但非最优的算法。
方法:我们引入几种方法来近似下确界的KL,大大减少了现有最优算法的计算和内存成本,同时保持了他们的遗憾保证。我们将这些发现应用于设计MED和IMED算法的新变体,并通过大量的数值模拟来证明它们的兴趣。
效果:实验结果表明,新设计的MED和IMED算法在各种情况下都能有效地减少遗憾,证明了我们的方法的有效性。
Finding Local Minima Efficiently in Decentralized Optimization
Wenhan Xian Heng Huang
研究问题:本文研究了非凸优化问题的分散随机算法的二阶最优性,以有效逃离鞍点。
动机:现有的分散随机算法在寻找鞍点时存在技术挑战,缺乏二阶最优性的证明。
方法:提出了一种新的纯梯度基分散随机算法PEDESTAL,并设计了新的收敛分析框架来解决这个问题。
效果:该方法是第一个在分散随机设置中实现二阶最优性且具有非渐近分析的算法。理论保证其梯度复杂度为$\tilde{O}(\epsilon^{-3})$,可以找到$O(\epsilon,\sqrt{\epsilon})$-二阶稳定点,这比得上集中式对应算法或找到一阶稳定点的分散式方法的最新结果。实验部分在两个分散式任务上验证了该方法的性能,包括一个使用合成数据的矩阵感测任务和一个使用真实世界数据集的矩阵分解任务。
Non-Smooth Weakly-Convex Finite-sum Coupled Compositional Optimization
Quanqi Hu Dixian Zhu Tianbao Yang
研究问题:本文旨在研究一种新的组合优化问题,即非光滑弱凸有限和耦合组合优化(NSWC FCCO)。
动机:由于其在机器学习和AI中的广泛应用以及解决基于经验风险最小化的随机算法的局限性的能力,对FCCO的兴趣日益增长。然而,当前关于FCCO的研究假设内外函数都是平滑的,这限制了它们处理更多样化问题的能力。
方法:我们扩展了这个领域,研究了非光滑弱凸FCCO,其中外部函数是弱凸和非递减的,内部函数是弱凸的。我们分析了单循环算法,并建立了其找到目标函数的莫罗包的ε-稳定点的复杂性。此外,我们还扩展了该算法来解决新型的非光滑弱凸三层有限和耦合组合优化问题,这些问题具有三个函数的嵌套排列。最后,我们在深度学习中探索了我们的算法在双向部分AUC最大化和多实例双向部分AUC最大化中的应用,通过实证研究展示了所提出算法的有效性。
效果:实验结果表明,我们提出的算法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
On Proper Learnability between Average- and Worst-case Robustness
Vinod Raman UNIQUE SUBEDI Ambuj Tewari
研究问题:本文旨在研究在最坏情况的鲁棒损失下,对PAC学习设置进行何种类型的放松可以使得学习成为可能。
动机:Montasser等人(2019)指出,有限的VC维数对于对抗性鲁棒PAC学习来说并不足够。因此,人们开始研究哪种类型的放松可以使得对抗性鲁棒PAC学习成为可能。
方法:我们提出了一种鲁棒损失的放松方法,在这种放松条件下,VC类是可以进行适当的PAC学习的,其样本复杂度接近于标准PAC学习设置所需的样本复杂度。
效果:我们发现,对于现有的一种自然放松的最坏情况的鲁棒损失,有限的VC维数并不足以进行适当的学习。最后,我们对对抗性鲁棒经验风险最小化器给出了新的泛化保证。
Global Identifiability of $\ell_1$-based Dictionary Learning via Matrix Volume Optimization
Jingzhou Hu Kejun Huang
研究问题:提出一种新的字典学习公式,最小化字典矩阵行列式(也称为体积)的行列式,同时满足稀疏系数矩阵的每一行具有单位l1范数的约束。
动机:提出的新公式能保证真实字典和稀疏系数矩阵的全局可识别性,如果从系数矩阵得到的一组向量在l∞范数球内但包含其凸包中的l2范数球。
方法:提出了一种基于线性化的ADMM算法,每次迭代都有有效的更新。
效果:数值实验表明,所提出的算法在正确且高效地恢复字典方面表现出惊人的效果。
High-dimensional Contextual Bandit Problem without Sparsity
Junpei Komiyama Masaaki Imaizumi
研究问题:本研究探讨了高维线性上下文强盗问题,其中特征数量p大于预算T,甚至可能无限。
动机:与该领域的大多数先前工作不同,我们没有对回归系数施加稀疏性。相反,我们依赖于关于过参数化模型的最新发现,这使得我们能够分析当数据分布具有小的有效秩时,最小范数插值估计器的性能。
方法:我们提出了一种探索-然后-承诺(EtC)算法来解决这个问题,并检查了其性能。通过我们的分析,我们导出了ETC算法的最优率,并表明这个比率可以通过平衡探索和利用来实现。此外,我们还引入了一种自适应探索-然后-承诺(AEtC)算法,该算法可以自适应地找到最优平衡。
效果:我们通过一系列模拟评估了所提出算法的性能。
Contextual Stochastic Bilevel Optimization
Yifan Hu Jie Wang Yao Xie Andreas Krause Daniel Kuhn
研究问题:本文旨在提出一种上下文随机双层优化(CSBO)框架,用于处理底层决策不仅受上层决策影响,还受一些旁侧信息影响的情况。
动机:当底层决策者的最优决策不仅取决于上层决策者的决策,还取决于一些旁侧信息时,传统的随机双层优化方法无法收敛。
方法:提出了一种基于多级蒙特卡洛(MLMC)技术的高效双循环梯度方法,并建立了其样本和计算复杂性。
效果:在元学习中,该方法的复杂度不依赖于任务的数量。数值实验进一步验证了理论结果。
Two Sides of One Coin: the Limits of Untuned SGD and the Power of Adaptive Methods
Junchi YANG Xiang Li Ilyas Fatkhullin Niao He
研究问题:本研究旨在解决随机梯度下降(SGD)在处理具有未知参数的问题时,如Lipschitz平滑常数,需要精确调整学习率的问题。
动机:尽管经典的SGD通过多项式衰减的学习率可以达到良好的效果,但在实践中,其依赖于精确调整的学习率和问题参数,如Lipschitz平滑常数,这在许多情况下是未知的。
方法:本研究提出了一种名为未调整SGD的方法,即使用任意大于0的学习率进行优化。虽然这种方法在最小化平滑目标时可以获得次优的收敛速度,但其对平滑度常数的依赖性呈指数级增长,即使在无噪声的环境中也无法避免。
效果:通过对三种自适应方法——标准化SGD、AMSGrad和AdaGrad的研究,我们发现这些方法可以在缺乏关于平滑度参数的信息和随机梯度有界的情况下,有效地防止这种指数级的依赖性。这为自适应方法在缓解大梯度问题上优于未调整SGD提供了理论依据。
Horospherical Decision Boundaries for Large Margin Classification in Hyperbolic Space
Xiran Fan Chun-Hao Yang Baba C. Vemuri
研究问题:如何利用双曲空间对分层数据进行表示,并设计有效的分类算法。
动机:双曲空间在表示分层数据方面具有优势,但现有的分类算法存在优化问题。
方法:提出一种基于球面决策边界的大间隔分类器,其优化问题是几何凸的,可使用黎曼梯度下降技术进行全局最优解的优化。
效果:实验表明,该分类器的性能优于现有技术。
Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games with Bandit Feedback
Yang Cai Haipeng Luo Chen-Yu Wei Weiqiang Zheng
研究问题:本文旨在解决两人零和马尔科夫博弈学习的问题,特别是开发一个解耦、收敛且理性的算法,以非渐近收敛速度达到纳什均衡。
动机:现有的算法需要同步和先验知识,而且对于仅能获得探索性反馈的情况,其收敛速度无法确定。因此,本文的目标是开发出一种不需要同步和先验知识的算法,并确定其在探索性反馈下的有限收敛速度。
方法:首先从状态无关的矩阵博弈开始,利用探索性反馈作为热身,展示了一个具有 $\tilde{\mathcal{O}}(t^{-\frac{1}{8}})$ 最后迭代收敛率的结果。然后扩展到不可约马尔科夫博弈的情况,提供了任意 $\varepsilon>0$ 的 $\tilde{\mathcal{O}}(t^{-\frac{1}{9+\varepsilon}})$ 最后迭代收敛率。最后,研究了没有任何动态假设的马尔科夫博弈,并展示了一个新的收敛概念——路径收敛,其收敛率为 $\tilde{mathcal{O}}(t^{-\frac{1}{10}})$.
效果:该算法去除了同步和先验知识的要求,这是与Wei等人(2021)在不可约马尔科夫博弈中追求相同目标的不同之处。此外,该算法还建立了在探索性反馈下的有限收敛速度,这是之前的研究没有做到的。
Adaptive Principal Component Regression with Applications to Panel Data
Anish Agarwal Keegan Harris Justin Whitehouse Steven Wu
研究问题:本文旨在为在线(正则化)PCR提供首次一致的有限样本保证,无论数据是否自适应收集。
动机:在观察协变量被随机噪声污染的情况下,PCR是一种流行的固定设计误差变量回归技术,而现有的PCR在固定设计设置中的证明技术并不直接适用于在线设置。
方法:通过将现代鞅集中的工具适应到误差变量环境中,提供了在线(正则化)PCR的一致有限样本保证。
效果:作为我们界限的应用,提供了一个框架用于面板数据设置中单位特定治疗效果的反事实估计,当干预措施通过一个自适应的干预分配策略进行收集时。
Delayed Algorithms for Distributed Stochastic Weakly Convex Optimization
Wenzhi Gao Qi Deng
研究问题:本文研究了分布式网络中具有最大信息延迟的弱凸优化问题的延迟随机算法。
动机:Xu等人在2022年的研究中,证明了基于惯性随机子梯度的方法以$\mathcal{O}(\tau_{\text{max}}/\sqrt{K})$的速率收敛,其中$\tau_{text{max}}$是最大的信息延迟。
方法:本文提出了一种更紧的基于期望延迟$\bar{tau}$的延迟随机子梯度下降法(DSGD)。对于一类重要的复合弱凸问题,我们开发了一种新的延迟随机prox-线性方法(DSPL),其中延迟仅影响高阶项,因此在一定的DSPL迭代次数后可以忽略。
效果:通过在两种方法中都引入一个简单的保护步骤,我们实现了只依赖于工人数量的收敛速度,消除了延迟的影响。我们的数值实验进一步证实了我们提出的方法在实践中的优势。
Bypassing the Simulator: Near-Optimal Adversarial Linear Contextual Bandits
Haolin Liu Chen-Yu Wei Julian Zimmert
研究问题:我们考虑了对抗性线性上下文强盗问题,其中损失向量完全敌对地选择,每轮动作集(即上下文)从固定分布中抽取。
动机:现有的方法要么需要访问模拟器来生成免费的独立同分布的上下文,要么实现次优的遗憾不超过T的5/6,要么在每轮的动作集较小时计算效率低下。
方法:我们通过在没有模拟器的情况下实现遗憾为O(T),同时在每轮的动作集较小时保持计算效率,从而大大改善了这些结果。
效果:在具有对抗性损失和随机臂可用性的睡眠强盗的特殊情况下,我们的结果肯定回答了[SGV20]关于是否存在具有poly(d)sqrt(T)遗憾的多项式时间算法的开放问题。我们的方法自然地处理了损失是线性的,最多有一个附加的错误的情况,我们的遗憾显示出对错误大小的近乎最优依赖性。
Trading-off price for data quality to achieve fair online allocation
Mathieu Molina Nicolas Gast Patrick Loiseau Vianney Perchet
研究问题:在线分配问题中考虑长期公平性惩罚,但决策制定者无法观察到受保护的属性。
动机:与现有工作不同,我们不假设决策制定者能观察到受保护的属性,而是他们可以购买数据来估计这些属性,从而降低公平性惩罚。
方法:我们将此问题建模为一个多臂强盗问题,每个强盗对应于数据源的选择,并结合公平的在线分配问题。我们提出了一种联合解决这两个问题的算法,并证明其遗憾度被限制在O(T)内。
效果:选择来源的奖励受到公平性惩罚的影响而产生相关性,需要随机化处理(尽管处于随机设置中)。我们的算法考虑了在选择来源之前可用的上下文信息,并能适应许多不同的公平性概念。
Sample Complexity of Goal-Conditioned Hierarchical Reinforcement Learning
Arnaud Robert Ciara Pike-Burke Aldo A. Faisal
研究问题:本文旨在解决强化学习中多层次规划的效率提升问题,并尝试理解其基础和设计规则。
动机:尽管层次化强化学习算法在样本效率上表现出显著改进,但其效率提升的基础和理论设计规则尚未完全明了。
方法:通过推导出一类目标条件层次强化学习算法的样本复杂度下界,提出了一种利用层次分解的简单Q-learning类型算法。
效果:通过对一系列任务进行实证验证,包括多层次n房间任务和Gymnasium的出租车任务,证明了理论发现的正确性,并为量化层次分解相对于单一解决方案在强化学习中的改进提供了一步。
Classification of Heavy-tailed Features in High Dimensions: a Superstatistical Approach
Urte Adomaityte Gabriele Sicuro Pierpaolo Vivo
研究问题:本研究旨在探讨在高维环境下,通过经验风险最小化学习两个混合云数据点的问题。
动机:由于数据分布的多样性和复杂性,如何有效地学习和理解这些数据成为一个重要的研究问题。
方法:我们采用了一种双重随机过程来获取每个云的数据点,并假设损失函数和正则化项都是凸函数。同时,我们还考虑了具有无协方差幂律尾分布的数据分布情况。
效果:通过对所得到的估计器进行泛化性能的研究、正则化作用的分析以及分离性转变的解析描述,我们发现该方法具有良好的性能,并且能够覆盖一大类数据分布,包括幂律尾分布且无协方差的情况。
Composable Coresets for Determinant Maximization: Greedy is Almost Optimal
Siddharth Gollapudi Sepideh Mahabadi Varun Sivashankar
研究问题:给定一组$n$维向量,如何选取$k$个向量以最大化其行列式。
动机:行列式最大化问题是确定性点过程(DPP)的最大后验概率(MAP)推理任务,近年来在模型多样性方面受到广泛关注。由于大多数应用都使用大量数据,因此该问题已在相关的“可组合核心集”设置中进行了研究。
方法:我们展示了广泛使用的贪婪算法也提供了具有几乎最优近似因子$O(k)^{3k}$的可组合核心集,这比之前已知的$C^{k^2}$保证有所改进,并支持先前的实验结果,显示了贪婪算法作为核心集的实际性。
效果:我们的主要结果是通过展示贪婪算法的局部最优性:将单个点从贪婪解决方案与未被贪婪算法选择的向量交换可以增加体积最多$(1+\sqrt{k})$倍。这个上界在加法常数$1$处是紧的。最后,我们的实验表明,贪婪算法的局部最优性在实际数据集上甚至低于理论界限。
Online Inventory Problems: Beyond the i.i.d. Setting with Online Convex Optimization
Massil HIHAT Stéphane Gaïffas Guillaume Garrigos Simon Bussy
研究问题:本研究针对多产品库存控制问题,探讨如何基于部分历史信息做出连续的补充决策以最小化累积损失。
动机:为了超越标准模型,我们考虑了一般的需求、损失和动态,这些模型通常依赖于新闻销售商类型的损失、固定的动态和不切实际的独立同分布需求假设。
方法:我们提出了MaxCOSD,一种在线算法,即使在具有非独立同分布需求和有状态动态的问题上也有保证,包括易腐性等问题。
效果:我们考虑了对需求过程的非退化假设,并认为它们是允许学习的必要条件。
On the Convergence and Sample Complexity Analysis of Deep Q-Networks with $\epsilon$-Greedy Exploration
Shuai Zhang Hongkang Li Meng Wang Miao Liu Pin-Yu Chen Songtao Lu Sijia Liu Keerthiram Murugesan Subhajit Chaudhury
研究问题:本文旨在对深度强化学习中的深度Q网络(DQN)和ε-贪婪探索进行理论理解。
动机:尽管DQN在实证上取得了巨大的成就,但其理论特性仍未得到充分探索。
方法:本文首先分析了DQN的探索策略,然后通过使用目标网络和经验回放来获取无偏的均方贝尔曼误差(MSBE)估计,以训练Q网络。最后,我们证明了一个具有衰减ε值的迭代过程会几何收敛到最优Q值函数。
效果:实验结果验证了我们对DQN的理论洞察。
Efficient Model-Free Exploration in Low-Rank MDPs
Zakaria Mhammedi Adam Block Dylan J Foster Alexander Rakhlin
研究问题:在高维领域进行强化学习时,如何开发实用、样本高效的探索算法。
动机:现有的算法要么计算上不可行,要么需要限制性的统计假设,如潜在变量结构或模型基础的函数近似。
方法:提出了第一个在低秩马尔可夫决策过程中进行探索的样本高效算法,该算法既计算效率高又无需模型,允许通用函数近似,除了一个可达性条件外,不需要其他结构假设。
效果:该算法使用特征嵌入的重心生成树作为有效计算的基础进行探索,通过交织表示学习和策略优化子例程来执行有效的生成树计算。
A Theoretical Analysis of the Test Error of Finite-Rank Kernel Ridge Regression
Tin Sum Cheng Aurelien Lucchi Anastasis Kratsios Ivan Dokmanić David Belius
研究问题:如何为有限秩核回归(KRR)提供更精确的统计学习保证。
动机:现有的统计学习保证对于一般的核回归器在应用于有限秩内核时,通常会产生宽松的界限。然而,有限秩内核在许多机器学习问题中自然出现,例如在执行迁移学习时微调预训练深度神经网络的最后一层以适应新任务。
方法:通过为任何有限秩KRR推导出锐利的非渐进上下界来解决这个问题。
效果:我们的界限比之前对有限秩KRR推导出的界限更精确,并且与可比的结果不同,它们也适用于任何正则化参数。
Discrete-Smoothness in Online Algorithms with Predictions
Yossi Azar Debmalya Panigrahi Noam Touitou
研究问题:设计具有(机器学习)预测的学习增强算法。
动机:理想的学习增强算法在给定完美预测时与最优解相当(一致性),对任意预测是最佳在线近似(鲁棒性),并应在预测误差的平滑函数之间进行插值。
方法:通过我们称之为离散平滑性的一般属性对这些保证进行量化,并为在线覆盖问题,特别是设施定位和集合覆盖问题实现离散平滑算法。
效果:对于集合覆盖问题,我们通过增强一致性和鲁棒性以及提供平滑性保证,改进了Bamas,Maggiori和Svensson(2020)的结果。对于设施定位问题,我们通过推广到非均匀成本并通过增强一致性和鲁棒性提供平滑性保证,改进了Almanza等人(2021)的工作。
A Unified Framework for Uniform Signal Recovery in Nonlinear Generative Compressed Sensing
Junren Chen Jonathan Scarlett Michael Ng Zhaoqiang Liu
研究问题:本文旨在解决使用生成压缩感知从非线性测量中恢复信号的问题。
动机:在现有的非线性压缩感知研究中,大部分结果都是针对特定信号的非均匀恢复保证,而缺乏对所有可能信号的统一恢复保证。
方法:本文建立了一个统一的框架,用于推导非线性压缩感知的统一恢复保证。该框架可以容纳具有1位/均匀量化观测和单指数模型的情况。具体来说,通过使用单个测量集合实现和广义Lasso,所有可能的信号都可以恢复,误差上限为ε,大约需要 O(k/ε^2) 个样本。
效果:实验结果表明,该方法能够有效地恢复非线性压缩感知中的所有可能信号,且恢复精度与现有非均匀保证相当。此外,该方法还引入了Lipschitz近似来处理不连续的观测模型,并开发了一个紧致性不等式,适用于其指标集具有低度量熵的乘积过程。
SHOT: Suppressing the Hessian along the Optimization Trajectory for Gradient-Based Meta-Learning
JunHoo Lee Jayeon Yoo Nojun Kwak
研究问题:本文旨在解决梯度基础的元学习(GBML)在优化过程中可能抑制Hessian矩阵的问题。
动机:作者假设GBML在内部循环中会隐式地抑制Hessian矩阵,基于此假设,他们提出了一种新的算法SHOT。
方法:SHOT算法通过最小化目标模型和参考模型参数之间的距离来抑制内部循环中的Hessian矩阵,尽管需要处理高阶项,但并不会显著增加基线模型的计算复杂度。
效果:实验结果证实了作者的假设,并且SHOT算法在标准的小样本学习任务上表现优于相应的基线模型。
Penalising the biases in norm regularisation enforces sparsity
Etienne Boursier Nicolas Flammarion
研究问题:训练神经网络时,控制参数范数通常能获得良好的泛化效果,但参数范数与所得估计器之间的关系在理论上仍不明确。
动机:对于具有单维数据的隐藏ReLU层网络,本研究显示表示函数所需的参数范数由其二阶导数的总变差乘以$\sqrt{1+x^2}$因子给出。值得注意的是,当偏置项的范数未被正则化时,这种加权因子会消失。这种额外加权因子的存在至关重要,因为它被证明可以强制最小范数插值器的唯一性和稀疏性(在拐点数量上)。相反,省略偏置的范数允许非稀疏解。
方法:通过对偏置项进行显式或隐式的正则化惩罚,从而得到稀疏估计器。
效果:实验结果表明,这种方法可以在各种知识驱动任务上取得显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
On Certified Generalization in Structured Prediction
Bastian Boll Christoph Schnoerr
研究问题:结构化预测中,目标对象具有丰富的内部结构,无法分解为独立的组件,违反了常见的独立同分布假设。
动机:在图像分割或场景图生成等应用中,这种挑战通过输出空间的指数级增长变得明显。
方法:我们提出了一种新的PAC-Bayesian风险边界用于结构化预测,其中泛化率不仅与结构化示例的数量有关,还与其大小有关。
效果:我们的研究朝着利用强大的生成模型在结构化预测的挑战性设置中建立判别性下游任务的泛化边界迈出了初步的一步。
Optimize Planning Heuristics to Rank, not to Estimate Cost-to-Goal
Leah Chrestien Stefan Edelkamp Antonin Komenda Tomáš Pevný
研究问题:本文旨在重新审视前向搜索算法(如A*和贪婪最佳优先搜索)严格最优高效启发式函数的必要充分条件,并针对特定前向搜索算法提出一种基于排名的损失函数族。
动机:当前在模仿学习中,优化启发式函数的参数通常是针对一组已解决的问题实例进行的。然而,对于只扩展返回最优路径状态的前向搜索算法,优化代价到目标h*是不必要的困难。
方法:本文提出了一种基于排名的损失函数族,适用于特定的前向搜索算法。从学习理论的角度讨论了优化代价到目标h*的困难性。
效果:通过在一系列不同问题上进行实验比较,本文的理论得到了明确的支持。
Optimal Regret Is Achievable with Bounded Approximate Inference Error: An Enhanced Bayesian Upper Confidence Bound Framework
Ziyi Huang Henry Lam Amirhossein Meisami Haofeng Zhang
研究问题:现有的贝叶斯强化学习方法在实际应用中表现优秀,但其理论依据存在较大差距。
动机:为了弥补这一差距,我们提出了增强的贝叶斯上置信界限(EBUCB)框架,以适应近似推理下的强化学习问题。
方法
效果:通过在一系列不同问题上进行实验比较,本文的理论得到了明确的支持。
Structured Semidefinite Programming for Recovering Structured Preconditioners
Arun Jambulapati Jerry Li Christopher Musco Kirankumar Shiragur Aaron Sidford Kevin Tian
研究问题:开发一个通用框架,寻找解决线性系统的最佳预处理器。
动机:利用这个框架,我们可以改进基本预条件和线性系统求解问题的运行时间。
方法:我们给出了一种算法,对于给定的正定矩阵K,可以在O(nnz(K) * poly(kappa^∗,epsilon^-1))时间内计算出ε-最优对角预处理器,其中kappa^∗是重新缩放矩阵的最佳条件数。
效果:我们的对角预处理器结果将目前通过通用半定规划实现的最佳运行时间Ω(d^3.5)提高了,并且我们的求解器将目前的最佳运行时间Ω(d^ω)提高了,其中ω > 2.3是目前的矩阵乘法常数。
Efficient Algorithms for Generalized Linear Bandits with Heavy-tailed Rewards
Bo Xue Yimu Wang Yuanyu Wan Jinfeng Yi Lijun Zhang
研究问题:本文探讨了具有重尾回报的广义线性博彩问题,其$(1+\epsilon)$阶矩对于某些$\epsilon\in (0,1]$是固定的。
动机:尽管存在处理广义线性博彩的方法,但大多数方法都集中在有界或次高斯回报上,并不适用于许多现实世界的场景,如金融市场和网络广告。
方法:我们提出了两种基于截断和中位数均值的新算法。这些算法实现了几乎最优的遗憾界$widetilde{O}(dT^{frac{1}{1+\epsilon}})$,其中$d$是上下文信息维度,$T$是时间范围。我们的截断基算法支持在线学习,与现有的截断基方法有所区别。此外,我们的中位数均值基算法只需要$O(log T)$个奖励和一个估计器每轮,使其更具实用性。
效果:我们的算法在$\epsilon=1$时,将现有算法的遗憾界提高了一个对数因子。数值实验结果证实了我们算法的优点。
Revisiting Area Convexity: Faster Box-Simplex Games and Spectrahedral Generalizations
Arun Jambulapati Kevin Tian
研究问题:本文旨在深入研究区域凸性,一种用于解决$\ell_infty$几何下优化问题的神秘工具,并开发其与传统的外梯度方法分析的关系。
动机:为了解决在$\ell_\infty$几何下的优化问题,研究者引入了区域凸性这一工具,但其与常规的外梯度方法分析之间的关系尚不清楚。
方法:通过使用相对平滑性[BBT17, LFN18]的新工具,我们为Sherman17算法的变体所需的子问题提供了改进的求解器。
效果:利用这些新工具,我们为解决具有有界行数的$d times n$矩阵中的箱单纯形游戏($\ell_\infty$回归的原-对偶形式)提供了一种先进的一阶算法,该算法需要$O(\log d \cdot epsilon^{-1})$的矩阵向量查询。作为结果,我们获得了近似最大流、最优传输、最小-平均-周期等基本组合优化问题的改进复杂度。此外,我们还开发了一种近线性时间的算法,用于处理箱单纯形游戏的矩阵泛化问题,该问题捕获了最近在鲁棒统计和数值线性代数中用作子例程的一系列半定规划问题。
Exponential Lower Bounds for Fictitious Play in Potential Games
Ioannis Panageas Nikolas Patris Stratis Skoulakis Volkan Cevher
研究问题:本文旨在解决在潜在游戏中,当应用Fictitious Play(FP)动态时,其收敛速度的问题。
动机:尽管FP已经被广泛应用于博弈论和多智能体强化学习中,但是除了二玩家零和游戏和特定的支付矩阵实例或对抗性决胜规则外,FP的收敛速度仍然未知。
方法:通过构造一个具有唯一纳什均衡的二玩家协调游戏,并证明该游戏中的每一个近似纳什均衡必须接近纯纳什均衡的$\ell_1$距离,来证明FP在潜在游戏中达到纳什均衡可能需要指数时间。
效果:实验结果表明,即使在两个玩家的情况下,FP也可能需要指数时间才能达到纳什均衡。
First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities
Aleksandr Beznosikov Sergey Samsonov Marina Sheshukova Alexander Gasnikov Alexey Naumov Eric Moulines
研究问题:本文探讨了涉及马尔可夫噪声的随机优化问题。
动机:为了解决现有研究的局限性,如需要有界域和均匀有界的随机梯度等假设,我们提出了一种新的方法。
方法:我们提出了一种基于多层蒙特卡洛方法的随机批处理方案,用于消除这些限制性假设,并实现了对非凸和强凸最小化问题的一阶梯度方法的理论分析。
效果:实验结果表明,我们的方法在各种情况下都能达到最优(线性)依赖底层噪声序列的混合时间,并且在强凸优化问题上与原始查询复杂度相匹配。此外,我们还首次将该方法扩展到了马尔可夫噪声下的变分不等式问题。
PAC-Bayesian Spectrally-Normalized Bounds for Adversarially Robust Generalization
Jiancong Xiao Ruoyu Sun Zhi-Quan Luo
研究问题:深度神经网络易受对抗性攻击,如何保证对抗性鲁棒的泛化能力是建立防御算法的关键。
动机:对抗性鲁棒的泛化在防御对抗性攻击中至关重要,因此需要研究其理论保证。
方法:本文以PAC-Bayes方法为基础,研究基于范数复杂度的对抗性鲁棒泛化。主要挑战在于将标准设置中的关键成分——权重扰动界扩展到鲁棒设置。
效果:我们提出了一种光谱归一化的对抗性鲁棒泛化界,与现有界限相比,我们的界限有两个显著优点:首先,它不依赖于额外的假设;其次,它更为紧密,与标准的泛化界限一致。此外,我们将主要结果扩展到了针对一般非$\ell_p$攻击和其他神经网络架构的对抗性鲁棒性。
Implicit Bias of (Stochastic) Gradient Descent for Rank-1 Linear Neural Network
Bochen Lyu Zhanxing Zhu
研究问题:揭示深度学习的隐含偏差对理解其底层机制至关重要,但即使在回归设置的标准线性网络中,全面描述这种隐含偏差仍然是一个开放的问题。
动机:本文提出了一种新的标准线性网络的代理模型——秩-1线性网络,其中每个权重矩阵都被参数化为秩-1形式。对于过度参数化的回归问题,我们精确分析了GD和SGD的隐含偏差。
方法:通过识别一个“潜力”函数,使得GD收敛于其最小化器约束下的零训练误差(即插值解),并进一步描述了SGD引入的噪声如何干扰这种潜力的形式。
效果:我们的研究结果明确地将网络的深度和初始化与GD和SGD的隐含偏差联系起来。此外,我们还强调了由随机性和过度参数化共同引起的SGD的新隐含偏差,这可以降低SGD解决方案对初始化的依赖性。我们的发现关于隐含偏差与最近流行的对角线线性网络模型不同,我们的秩-1模型产生的偏差更符合标准线性网络,而对角线模型则不是。这表明提出的秩-1线性网络可能是标准线性网络的一个合理的代理模型。
ReSync: Riemannian Subgradient-based Robust Rotation Synchronization
Huikang Liu Xiao Li Anthony Man-Cho So
研究问题:本文提出了一种名为ReSync的黎曼子梯度算法,用于解决各种工程应用中出现的鲁棒旋转同步问题。
动机:旋转同步问题是在各种工程应用中广泛出现的问题,而现有的解决方法往往无法直接恢复出底层的旋转。
方法:ReSync通过最小化非光滑和非凸的旋转群上的最小二乘误差来解决问题,并提供了在随机干扰设置下的强大理论保证。
效果:实验结果表明,ReSync在适当的条件下能够线性收敛到真实的旋转值,证明了其有效性。
Multi-Fidelity Multi-Armed Bandits Revisited
Xuchuang Wang Qingyun Wu Wei Chen John C.S. Lui
研究问题:本文研究了多保真度多臂老虎机(MF-MAB)问题,这是
动机:旋转同步问题是在各种工程应用中广泛出现的问题,而现有的解决方法往往无法直接恢复出底层的旋转。
方法:ReSync通过最小化非光滑和非凸的旋转群上的最小二乘误差来解决问题,并提供了在随机干扰设置下的强大理论保证。
效果:实验结果表明,ReSync在适当的条件下能够线性收敛到真实的旋转值,证明了其有效性。
Preconditioning Matters: Fast Global Convergence of Non-convex Matrix Factorization via Scaled Gradient Descent
Xixi Jia Hailin Wang Jiangjun Peng Xiangchu Feng Deyu Meng
研究问题:本文旨在解决矩阵分解中的非凸优化问题,即如何通过优化目标函数来找到全局最优解。
动机:现有的梯度下降法在处理非凸优化问题时,由于目标函数的非光滑性和非凸性,使得其全局收敛性难以保证。
方法:本文提出了预条件技术来加速收敛,并证明了经预条件处理后的缩放梯度下降法(ScaledGD)及其变种——交替缩放梯度下降法(AltScaledGD)可以在一般随机初始化下,经过 $O({\rm ln} \frac{d}{\delta} + {\rm ln} \frac{d}{varepsilon})$ 次迭代后收敛到 $\varepsilon$-全局最小值。
效果:实验结果表明,预条件技术可以有效加速收敛,且AltScaledGD的收敛速度优于ScaledGD,其全局收敛不依赖于小的学习率和小的初始化,这证明了AltScaledGD在矩阵分解问题上的优势。
Efficient Sampling of Stochastic Differential Equations with Positive Semi-Definite Models
Anant Raj Umut Simsekli Alessandro Rudi
研究问题:如何有效地从随机微分方程中进行采样,给定漂移函数和扩散矩阵。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Geometric Analysis of Matrix Sensing over Graphs
Haixiang Zhang Ying Chen Javad Lavaei
研究问题:本文探讨了矩阵在图上的感测问题(MSoG),这是矩阵补全和矩阵感测问题的一般情况,但尚未在文献中得到分析。
动机:现有的结果不能直接应用于MSoG问题,因此需要对MSoG问题的优化景观进行首次理论分析。
方法:提出了一种新的条件,称为Ω-RIP条件,以描述问题的优化复杂性。同时,通过改进的不一致性正则化,证明了在不一致性条件和Ω-RIP条件下,MSoG问题大概率具有严格的鞍点性质,这保证了鞍点避免方法的多项式时间全局收敛。
效果:与最先进的结果相比,本文的结果在常数上是紧的。除了理论保证外,我们还数值说明了Ω-RIP条件和优化复杂性之间的密切关系。
Byzantine-Tolerant Methods for Distributed Variational Inequalities
Nazarii Tupitsa Abdulla Jasem Almansoori Yanlin Wu Martin Takáč Karthik Nandakumar Samuel Horváth Eduard Gorbunov
研究问题:如何提高预训练语言模型在知识驱动任务上的性能,同时保持对常见NLP任务的优异表现?
动机:目前的预训练语言模型缺乏对结构化知识的利用,而知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱进行联合训练,训练出一种增强的语言表示模型ERNIE,以充分利用词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Practical Contextual Bandits with Feedback Graphs
Mengxiao Zhang Yuheng Zhang Olga Vrousgou Haipeng Luo Paul Mineiro
研究问题:如何有效地利用不同的反馈模式来提高学习速度,同时降低学习的统计复杂性。
动机:虽然上下文强盗理论已经成熟,但如何有效利用不同的反馈模式来提高学习速度仍然不清楚。反馈图强盗,作为完全信息和强盗制度之间的插值,提供了一个有希望的框架来减轻学习的统计复杂性。
方法:本文提出了一种基于降维到回归的反馈图强盗的方法,并进行了分析。这种方法在计算上是实用的,并且达到了既定的最小最大速率,从而在实际应用程序中降低了统计复杂性。
效果:实验结果表明,该方法能有效提高学习速度,降低统计复杂性,并在实际应用中取得了良好的效果。
Robust Learning for Smoothed Online Convex Optimization with Feedback Delay
Pengfei Li Jianyi Yang Adam Wierman Shaolei Ren
研究问题:本文研究了平滑在线凸优化的一般形式,包括多步切换成本和反馈延迟。
动机:提出了一种新的机器学习增强的在线算法,即鲁棒性约束学习(RCL),通过受约束的投影将不可信的ML预测与可信的专家在线算法结合,以增强ML预测的鲁棒性。
方法:证明了RCL能够保证在任何给定专家的情况下,对于任何大于0的λ,都具有竞争性,同时也明确地以鲁棒性感知的方式训练ML模型,以提高平均性能。
效果:通过电池管理作为案例研究,展示了RCL在鲁棒性和平均性能方面的改进。
Solving a Class of Non-Convex Minimax Optimization in Federated Learning
Xidong Wu Jianhui Sun Zhengmian Hu Aidong Zhang Heng Huang
研究问题:解决机器学习应用中的最小最大问题,包括对抗训练、强化学习中的策略评估和AUROC最大化等。
动机:在面对大规模的分布式数据挑战时,通过有效的通信进行分布式训练的联邦学习(FL)正在受到欢迎。然而,对于联邦学习下的最小最大问题的优化算法仍然有待探索。
方法:研究一类联邦非凸最小最大优化问题,提出联邦学习算法(FedSGDA+和FedSGDA-M),并降低了现有最常见最小最大问题的复杂度。对于非凸-凹问题,我们提出了FedSGDA+并将通信复杂度降低到O(ε^-6)。在非凸-强凸和非凸-PL最小最大设置下,我们证明了FedSGDA-M具有已知最好的样本复杂度O(κ^3 N^-1 ε^-3)和已知最好的通信复杂度O(κ^2 ε^-2)。
效果:在公平分类和AUROC最大化等实验上,我们的算法表现出了高效性。
Energy-Efficient Scheduling with Predictions
Eric Balkanski Noemie Perivier Clifford Stein Hao-Ting Wei
研究问题:如何有效地管理电力使用以提高能源效率。
动机:现代调度系统的一个重要目标是有效管理电力使用,以降低能源消耗并优化服务质量成本。
方法:通过利用机器学习预测未来需求,设计了一种新的学习增强算法框架,该框架在预测误差较小时可以提供更好的性能保证。
效果:实验结果表明,该框架在许多不同的节能调度问题上都能提供改进的竞争力,并在预测误差较大时仍能保持有界的竞争力。
Fast Attention Requires Bounded Entries
Josh Alman Zhao Song
研究问题:本文探讨了在训练大型语言模型如Transformer、GPT-1、BERT等时,内积注意力计算的问题。
动机:当前的预训练语言模型在进行内积注意力计算时,需要显式地计算注意力矩阵,这在矩阵规模较大时会消耗大量的时间。
方法:本文提出了一种利用注意力矩阵$A$进行隐式计算的方法,通过改变输入矩阵的数值大小,可以显著提高注意力计算的效率。
效果:实验结果表明,当输入矩阵的数值较小时,注意力计算的效率会有显著提高。同时,本文还发现,当矩阵规模和数值大小的比值达到一定阈值时,即使使用最优算法,也无法在对数时间内完成注意力计算。
Learning the Efficient Frontier
Philippe Chatigny Ivan Sergienko Ryan Ferguson Jordan Weir Maxime Bergeron
研究问题:如何有效地分配资源以在特定风险水平下最大化回报。
动机:传统的优化方法计算效率低,需要寻找一种快速且稳健的神经近似框架来预测最优化结果。
方法:提出了NeuralEF,将优化问题重构为序列到序列问题,通过处理不连续行为来加速大规模模拟。
效果:NeuralEF可以有效地预测最优化结果,提高了计算效率和稳健性。
Time-uniform confidence bands for the CDF under nonstationarity
Paul Mineiro Steven R Howard
研究问题:如何从一系列观测中估计完整的一元分布,这对于手动和自动决策都是有用的。
动机:这个问题在独立同分布的设置下已经得到了广泛的关注,但是任意数据依赖的设置仍然基本上没有得到解决。
方法:我们提出了一种计算上令人满意的时间一致和值一致的边界,用于估计一系列实值随机变量的条件分布的运行平均值。
效果:我们的CDF边界总是有效的,但当实例过于困难时,有时可能是无关紧要的,我们给出了一个实例相关的收敛保证。重要性加权扩展适用于估计给定随机实验数据的奖励的完整反事实分布,例如A/B测试或上下文强盗。
Provable convergence guarantees for black-box variational inference
Justin Domke Robert M. Gower Guillaume Garrigos
研究问题:本文旨在解决黑箱变分推断中随机优化成功无证明的问题。
动机:现有的随机优化证明存在理论空白,即非常规噪声边界的梯度估计器挑战和复合非平滑目标。
方法:针对密集高斯变分族,本文发现基于重参数化的现有梯度估计器满足二次噪声边界,并为此提供了新的收敛保证。
效果:这为类似实践中使用的方法在现实推理问题上的收敛提供了严格的保证。
Small Total-Cost Constraints in Contextual Bandits with Knapsacks, with Application to Fairness
Evgenii E Chzhen Christophe Giraud Zhen LI Gilles Stoltz
研究问题:本文研究了具有背包约束的上下文Bandit问题。
动机:在这个问题中,学习者需要在满足预设的成本约束下,最大化累积奖励。
方法:我们提出了一种基于投影梯度下降更新的对偶策略,能够处理高达$\sqrt{T}$次方级别的总成本约束。
效果:这种策略比现有文献中的策略更直接、更简单,且能通过精心、自适应的步长调整来达到较好的效果。
On the Complexity of Differentially Private Best-Arm Identification with Fixed Confidence
Achraf Azize Marc Jourdan Aymen Al Marjani Debabrota Basu
研究问题:本文研究了在$\epsilon$-全局差分隐私(DP)下进行固定置信度的最佳手臂识别(BAI)问题。
动机:由于数据敏感应用如设计适应性临床试验、调整超参数和进行用户研究等对数据隐私的关注,我们对此进行了研究。
方法:我们提出了一种满足$\epsilon$-全局DP的AdaP-TT算法,这是一种Top Two算法的变体。该算法以“手臂依赖的自适应阶段”运行,并添加拉普拉斯噪声以确保良好的隐私-效用权衡。
效果:实验分析验证了我们的理论研究结果,AdaP-TT的样本复杂度上限与低隐私区间下的理论下界相匹配。
Learning Exponential Families from Truncated Samples
Jane Lee Andre Wibisono Manolis Zampetakis
研究问题:本文旨在解决科学领域中普遍存在的缺失数据问题,特别是当样本被截断时。
动机:截断样本是缺失数据问题的一种基本类型,其统计估计问题是统计学中的经典问题。最近的一些工作为高斯分布和带有高斯噪声的线性回归提供了有效的参数估计算法。
方法:本文将这些结果推广到对数凹指数族,提供了一个估计算法,该算法表明对于更大一类的分布,外推是可能的,同时在平均情况下保持了多项式样本和时间复杂度。该算法基于投影随机梯度下降法,不仅适用于更一般的情况,而且比最近的算法更简单、更有效。
效果:本文的工作还对仅访问截断数据的情况下学习一般对数凹分布和采样有重要意义。
Meta-Learning Adversarial Bandit Algorithms
Mikhail Khodak Ilya Osadchiy Keegan Harris Nina Balcan Kfir Yehuda Levy Ron Meir Steven Wu
研究问题:本文旨在解决科学领域中普遍存在的缺失数据问题,特别是当样本被截断时。
动机:截断样本是缺失数据问题的一种基本类型,其统计估计问题是统计学中的经典问题。最近的一些工作为高斯分布和带有高斯噪声的线性回归提供了有效的参数估计算法。
方法:本文将这些结果推广到对数凹指数族,提供了一个估计算法,该算法表明对于更大一类的分布,外推是可能的,同时在平均情况下保持了多项式样本和时间复杂度。该算法基于投影随机梯度下降法,不仅适用于更一般的情况,而且比最近的算法更简单、更有效。
效果:本文的工作还对仅访问截断数据的情况下学习一般对数凹分布和采样有重要意义。
Fair Allocation of Indivisible Chores: Beyond Additive Costs
Bo Li Fangxiao Wang Yu Zhou
研究问题:如何公平地将m个不可分割的任务分配给n个完成任务有成本的代理人。
动机:已知精确的最大最小分享(MMS)公平性无法保证,对于加性成本函数,目前最好的近似值是Huang和Segal-Halevi [EC, 2023]提出的$\frac{13}{11}$;然而,在超越加性的情况下,我们知之甚少。
方法:我们首先证明,如果成本函数是模态的,那么没有算法能保证比$\min{n,\frac{\log m}{log \log m}\}$更好的近似值。这一结果也与商品分配形成了鲜明的对比,后者如Barman和Krishnamurthy [TEAC, 2020]以及Ghodsi等人[AIJ, 2022]所示,存在常数近似值。然后,我们证明了对于次加性成本,总是存在一个$\min\{n,\lceillog m\rceil\}$近似值的分配,因此,近似比是渐近紧的。
效果:除了乘性近似外,我们还考虑了序数松弛,即最近由Hosseini等人[JAIR和AAMAS, 2022]提出的1-out-of-d MMS。我们的不可能结果意味着对于任何$d\ge 2$,可能存在1-out-of-d MMS分配。由于这些针对一般次加性成本的困难结果,我们将注意力转向了两种特定的次加性成本,即装箱和作业调度。对于这两种情况,我们都证明了乘性和序数松弛的MMS都存在常数近似分配。
Covariance-adaptive best arm identification
El Mehdi Saad Gilles Blanchard Nicolas Verzelen
研究问题:在多臂赌博机模型中,考虑固定置信度
动机:已知精确的最大最小分享(MMS)公平性无法保证,对于加性成本函数,目前最好的近似值是Huang和Segal-Halevi [EC, 2023]提出的$\frac{13}{11}$;然而,在超越加性的情况下,我们知之甚少。
方法:我们首先证明,如果成本函数是模态的,那么没有算法能保证比$\min{n,\frac{\log m}{log \log m}\}$更好的近似值。这一结果也与商品分配形成了鲜明的对比,后者如Barman和Krishnamurthy [TEAC, 2020]以及Ghodsi等人[AIJ, 2022]所示,存在常数近似值。然后,我们证明了对于次加性成本,总是存在一个$\min\{n,\lceillog m\rceil\}$近似值的分配,因此,近似比是渐近紧的。
效果:除了乘性近似外,我们还考虑了序数松弛,即最近由Hosseini等人[JAIR和AAMAS, 2022]提出的1-out-of-d MMS。我们的不可能结果意味着对于任何$d\ge 2$,可能存在1-out-of-d MMS分配。由于这些针对一般次加性成本的困难结果,我们将注意力转向了两种特定的次加性成本,即装箱和作业调度。对于这两种情况,我们都证明了乘性和序数松弛的MMS都存在常数近似分配。
Time-Independent Information-Theoretic Generalization Bounds for SGLD
Futoshi Futami Masahiro Fujisawa
研究问题:为随机梯度Langevin动力学(SGLD)在采样和非线性优化研究中的广泛应用,提供新颖的信息理论泛化界限。
动机:当前的研究主要关注于改进采样和非线性优化的性能,但缺乏对SGLD泛化能力的深入理解。
方法:我们提出了一种新的信息理论泛化界限,该界限基于KL散度的演化时间,与数据集的稳定性和输出参数与输入数据集之间的互信息上限有关。
效果:我们的泛化界限是时间独立的,并且会随着样本大小的增加而衰减到零,无论迭代次数多少,步长是否固定。此外,我们还建立了第一个当训练和测试损失相同时的信息理论泛化界限,这一界限也是时间独立的,消除了现有工作中步长依赖性的问题,通过将我们的分析与现有的非线性优化误差界限结合,得到了改进的超额风险界限。
A Batch-to-Online Transformation under Random-Order Model
Jing Dong Yuichi Yoshida
研究问题:如何将离线近似算法转化为在线算法,以实现低ε-近似遗憾。
动机:为了解决随机顺序模型下的在线算法问题,提出一种转换框架。
方法:通过降低平均敏感性,将离线近似算法转化为具有低ε-近似遗憾的在线算法。
效果:成功应用于多种问题,包括在线(k,z)聚类、在线矩阵近似和在线回归,实现了多项式对数ε-近似遗憾,且在所有这些情况下,算法都具有低不一致性。
Logarithmic-Regret Quantum Learning Algorithms for Zero-Sum Games
Minbo Gao Zhengfeng Ji Tongyang Li Qisheng Wang
研究问题:提出首个在线量子算法解决零和游戏,并实现低遗憾。
动机:在游戏环境中,设计出具有低遗憾的在线量子算法,以解决零和游戏的问题。
方法:利用标准量子输入和简洁描述的输出,开发出一个在线量子算法,该算法基于乐观的乘法更新方法对经典算法进行"量化"处理。
效果:成功实现了一个快速量子线性规划求解器,并在理论上证明了其有效性。
Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space
Saghar Adler Vijay Subramanian
研究问题:如何优化具有未知参数的计数无限状态空间马尔可夫决策过程(MDPs)的控制策略。
动机:许多现实生活的应用模型,如通信网络或计算系统的排队模型,都具有计数无限的状态空间。现有的算法和学习程序主要关注有限状态设置,并不能直接应用于这些模型。
方法:从贝叶斯的角度出发,我们提出了一种基于汤普森采样和动态大小剧集的算法来优化未知MDP的控制。在每个剧集开始时,通过贝叶斯规则形成的后验分布用于产生参数估计,然后决定在剧集中应用的策略。
效果:我们建立了一个上界$\tilde O(dh^d\sqrt{|mathcal A|T})$,其中$T$是时间范围,以证明我们的算法的稳定性。最后,我们考虑了两种具有未知动态的排队模型,并展示了我们的算法可以应用于开发近似最优控制算法。
Selective Sampling and Imitation Learning via Online Regression
Ayush Sekhari Karthik Sridharan Wen Sun Runzhe Wu
研究问题:本文探讨了通过主动查询噪声专家反馈的模仿学习(IL)问题。
动机:虽然模仿学习在实践中取得了成功,但大部分先前的工作都假设可以无噪声地获取专家反馈,这在许多应用中并不现实。实际上,当只能获取噪声专家反馈时,依赖纯离线数据(非交互式IL)的算法需要大量样本才能成功,而这通常是不可行的。
方法:本文提供了一个交互式的IL算法,该算法使用选择性采样来主动查询噪声专家反馈。我们的贡献有两个方面:首先,我们提供了一个新的选择性采样算法,该算法适用于一般函数类和多个动作,并获得了已知的最佳遗憾和查询次数上界。其次,我们将这种分析扩展到带有噪声专家反馈的IL问题,并提供了一种新IL算法,该算法限制了查询次数。
效果:我们的选择性采样算法利用了函数逼近,并依赖于一个关于给定模型类的在线回归神谕来预测行动,以及决定是否向专家查询其标签。在理论上,我们算法的遗憾上界由在线回归神谕的遗憾所确定,而查询复杂度则取决于模型类的逃避维度。我们还提供了一个下界来证明我们的结果是一致的。我们将我们的选择性采样算法扩展到具有一般函数逼近的IL,并对向噪声专家进行的遗憾和查询次数提供了界限。一个关键的创新点是我们的遗憾和查询复杂度界限仅取决于最优策略(而不是噪声专家或学习者)进入具有小间隔状态的次数。
Continuous-time Analysis of Anchor Acceleration
Jaewook J. Suh Jisun Park Ernest K. Ryu
研究问题:本文旨在深入理解锚加速机制,这是一种与Nesterov加速不同的优化加速方法。
动机:尽管锚加速已被发现适用于最小最大优化和固定点问题,但其工作机制尚未得到充分理解。
方法:通过分析连续时间模型,对锚加速的收敛速度进行了严格的统一分析,并提出了受其启发的自适应方法。
效果:理论分析和实验表明,该方法具有高效性。
On Robust Streaming for Learning with Experts: Algorithms and Lower Bounds
David Woodruff Fred Zhang Samson Zhou
研究问题:在线学习与专家问题,即给定一组专家的预测,算法需要在T天内对结果进行预测,并最小化其预测成本。
动机:在现实中,专家或算法的预测会影响未来的结果,因此输入是自适应生成的。
方法:本文提出了一种随机化的鲁棒算法,该算法可以抵抗自适应输入,并使用$\widetilde{O}\left(frac{n}{R\sqrt{T}}\right)$的空间,从而实现平滑的空间-遗憾权衡。
效果:实验结果表明,使用鲁棒程序对抗具有访问算法内部状态的白盒对手是有益的。
Noise-Adaptive Thompson Sampling for Linear Contextual Bandits
Ruitu Xu Yifei Min Tianhao Wang
研究问题:如何开发一种能够有效处理具有未知方差的噪声,同时保证在最坏情况的常数方差噪声和确定性奖励场景下提供可靠保证的算法。
动机:在现实中,专家或算法的预测会影响未来的结果,因此输入是自适应生成的。
方法:本文提出了一种随机化的鲁棒算法,该算法可以抵抗自适应输入,并使用$\widetilde{O}\left(frac{n}{R\sqrt{T}}\right)$的空间,从而实现平滑的空间-遗憾权衡。
效果:实验结果表明,使用鲁棒程序对抗具有访问算法内部状态的白盒对手是有益的。
Sensitivity in Translation Averaging
Lalit Manam Venu Madhav Govindu
研究问题:本文探讨了在不确定性下,翻译平均对相对方向小的扰动的敏感性。
动机:尽管已有大量关于鲁棒性和唯一性的研究,但本文关注了一个不同的问题,即翻译平均在不确定性下的敏感性。
方法:首先,我们分析了在相对方向的小扰动下估计对应比例的敏感性。然后,我们形式化定义了翻译平均问题的约束条件,该条件仅基于输入方向评估估计翻译的可靠性。我们给出了一个充分条件来确保问题是良态的。接下来,我们提供了一个有效的算法来识别和删除使问题病态的组合方向,同时确保解决方案的唯一性。
效果:我们在全局结构从运动管道中展示了这种分析的效用,用于获取3D重建,揭示了在翻译平均中过滤病态方向的好处,包括减少翻译错误、更多的3D点被三角测量以及捆绑调整更快的收敛。
BanditPAM++: Faster $k$-medoids Clustering
Mo Tiwari Ryan Kang Donghyun Lee Sebastian Thrun Ilan Shomorony Martin Jinye Zhang
研究问题:如何提高$k$-medoids聚类算法的效率?
动机:$k$-medoids聚类算法具有更好的解释性和对异常对象的处理能力,但效率是其一大缺点。
方法:提出了BanditPAM++算法,通过在每次迭代中重复使用聚类信息和在不同迭代间重复使用信息来加速BanditPAM。
效果:BanditPAM++在复杂度上比BanditPAM快$O(k)$倍,并且在CIFAR10数据集上运行速度比BanditPAM快10倍以上。
Core-sets for Fair and Diverse Data Summarization
Sepideh Mahabadi Stojan Trajanovski
研究问题:在公平/分区约束下,如何最大化多样性的核心集构造算法。
动机:给定一个点集P,在度量空间中被分为m组,目标是从每个组i中选择k_i个点,使得选取的k个点的全面多样性最大。
方法:考虑两种自然多样性测量:成对距离之和和最近邻距离之和,并展示了针对这些测量的改进核心集构造算法。
效果:我们展示了第一个与成对距离之和无关的常数因子核心集,其大小独立于数据集的大小和纵横比。其次,我们展示了第一个关于最近邻距离之和的核心集。最后,我们运行了几个实验,展示了我们的核心集方法的有效性。特别是在总结一系列定时消息的任务中,我们的应用实现了100倍的速度提升,同时只损失了百分之几的多样性。此外,我们的方法还提高了算法在流媒体设置中的空间利用率。
Agnostic Multi-Group Active Learning
Nicholas Rittler Kamalika Chaudhuri
研究问题:如何通过主动学习,最小化标签查询次数的同时,实现对多个分布的集合进行泛化学习。
动机:在面对罕见或困难的数据子集时,提高分类准确率的问题引发了关注。特别是在主动学习中,学习者有权决定从每个分布中选择哪些样本进行标注,目标是最小化标签查询次数,同时保持PAC学习保证。
方法:我们修改了现有的算法,为多组学习的非特定形式提供了一个一致的主动学习方法。该方法在给定一组G个分布和一个具有VC维数d的假设类H的情况下,使用$\tilde{O}\left( (
u^2/\epsilon^2) G d \theta_{\mathcal{G}}^2 \log^2(1/epsilon) + G\log(1/\epsilon)/\epsilon^2 right)$个标签查询,输出一个$\epsilon$-最优的假设。
Dynamic Pricing and Learning with Bayesian Persuasion
Shipra Agrawal Yiding Feng Wei Tang
研究问题:本文旨在研究一种新的动态定价和学习设置,其中卖方除了在连续的回合中设定产品价格外,还预先承诺“广告方案”。
动机:通过使用流行的贝叶斯劝说框架来模拟这些信号对买方估值和购买反应的影响,以最大化卖方的预期收入为目标,制定最优的广告方案和定价方案。
方法:设计一种在线算法,无需事先了解买方需求函数的知识,而是使用过去的购买反应来自适应地学习最优的定价和广告策略。
效果:当估价函数是产品质量的线性函数时,该算法实现了$O(T^{2/3}(m \log T )^{1/3})$的遗憾界限。这一结果要求对估价函数进行一些自然单调性和Lipschitz假设,但对买方需求函数没有Lipschitz或平滑性假设。
No-Regret Learning with Unbounded Losses: The Case of Logarithmic Pooling
Eric Neyman Tim Roughgarden
研究问题:如何有效地整合多个专家在T个时间步长上对n个结果的概率分布预测,以达到无遗憾的保证。
动机:当前的预测聚合方法无法有效利用丰富的结构化知识,通过结合知识图谱和文本语料库训练模型,可以更好地捕捉语义模式。
方法:采用大规模文本语料库和知识图谱进行联合训练,提出了一种新的增强语言表示模型ERNIE。该模型能够同时充分利用词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Tight Bounds for Volumetric Spanners and Applications
Aditya Bhaskara Sepideh Mahabadi Ali Vakilian
研究问题:如何利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Online Convex Optimization with Unbounded Memory
Raunak Kumar Sarah Dean Robert Kleinberg
研究问题:在线凸优化(OCO)框架在许多应用中,学习者的损失不仅取决于当前的决策,还取决于到当前为止的整个决策历史。然而,现有的OCO框架及其推广无法捕捉这种长期依赖性。
动机:为了解决这个问题,我们提出了一个OCO框架的泛化——“具有无界记忆的在线凸优化”,它可以捕捉到过去决策对当前损失的长期依赖性。
方法:我们引入了$p$-有效记忆容量$H_p$的概念,它量化了过去决策对当前损失的最大影响。我们证明了一个关于策略遗憾的$O(\sqrt{H_p T})$上界和一个匹配的(最坏情况)下界。
效果:通过使用我们的框架,我们为各种在线学习问题(包括在线线性控制和在线表演预测的一个变种)推导出了遗憾界限,并改进和简化了现有的遗憾界限推导。
Learning and Collusion in Multi-unit Auctions
Simina Branzei Mahsa Derakhshan Negin Golrezaei Yanjun Han
研究问题:在碳拍卖中,如何为多个感兴趣的参与者分配二氧化碳排放许可证。
动机:受到碳拍卖的启发,我们考虑了在实践中广泛使用的具有统一定价的重复多单位拍卖。
方法:通过设计低遗憾度的高效出价算法并给出遗憾度下界,对离线和在线设置中的这些拍卖进行分析。
效果:我们发现两种主要拍卖变体中的一个容易受到投标人之间的串通影响,而另一个则不会。
(Almost) Provable Error Bounds Under Distribution Shift via Disagreement Discrepancy
Elan Rosenfeld Saurabh Garg
研究问题:如何利用未标记的测试数据,对深度神经网络在分布转移下的错误进行新的(几乎)保证的上限推导。
动机:现有方法在实践中无效,或者平均准确但严重低估了大部分转移的错误。
方法:我们提出了一种基于“分歧损失”的新的损失函数,用于优化一个多分类器以与另一个多分类器产生分歧,从而推导出错误上限。
效果:在广泛的自然和合成分布转移基准测试中,我们的方法给出了有效的错误边界,同时实现了与竞争性估计基线相当的平均准确性。
Learning in the Presence of Low-dimensional Structure: A Spiked Random Matrix Perspective
Jimmy Ba Murat A Erdogdu Taiji Suzuki Zhichao Wang Denny Wu
研究问题:在数据中存在低维结构的情况下,如何确定尖峰幅度(即低维成分的强度),以便核方法以及通过梯度下降优化的神经网络能够学习目标函数。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Swap Agnostic Learning, or Characterizing Omniprediction via Multicalibration
Parikshit Gopalan Michael P. Kim Omer Reingold
研究问题:本文介绍了并研究了Swap Agnostic Learning的概念。
动机:将预测者和对手之间的游戏形式化,预测者选择一个假设,然后对手做出反应,选择最小化损失的假设。尽管对手强大,但我们的主要结果表明,对于任何凸损失函数,Swap Agnostic Learning是可行的。
方法:通过证明Swap Agnostic Learning与最近的Omniprediction和Multicalibration概念的交换变体之间的等价性,来证明Swap Agnostic Learning的可行性。
效果:我们的研究结果建立了与现有文献中Outcome Indistinguishability的统一概念的联系,揭示了一个捕获所有现有的omniprediction和multicalibration概念的统一概念。
Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs with Short Burn-In Time
Xiang Ji Gen Li
研究问题:本文旨在解决强化学习中的一个重要问题,即在线学习下无限期离散马尔可夫决策过程的最优策略学习。
动机:现有的算法要么无法达到遗憾最优,要么需要高昂的内存和计算成本。此外,现有的最优算法都需要一个很长的磨合时间才能达到最优样本效率,即除非样本量超过一个很高的阈值,否则其最优性无法保证。
方法:通过引入一种使用方差减少的策略和一种新的以慢而适应的方式切换执行策略的技术,来解决这两个开放性问题。
效果:这是第一个在折扣设置下达到遗憾最优的无模型算法,具有磨合时间短的额外好处。
Global Optimality in Bivariate Gradient-based DAG Learning
Chang Deng Kevin Bello Pradeep Kumar Ravikumar Bryon Aragam
研究问题:如何优化非凸优化问题,特别是在从数据中学习无环有向图模型的统计问题。
动机:现有的方法使用标准的一阶优化方案来解决这个问题,但证明这种方法的全局最优性却很困难。这个问题与其他文献中的非凸问题不同,它并非“良性”,并且存在多个伪解,标准方法很容易陷入其中。
方法:本文提出了一种简单的路径跟踪优化方案,证明了它在双变量设置中全局收敛到种群损失的全局最小值。
效果:通过这种新的优化方案,可以有效地解决非凸优化问题,特别是从数据中学习无环有向图模型的问题。
Adaptive Selective Sampling for Online Prediction with Experts
Rui M. Castro Fredrik Hellström Tim van Erven
研究问题:在线预测二元序列,考虑专家建议。
动机:设计标签高效的预测算法,通过选择性采样方案,收集的标签数量远少于标准程序。
方法:对于没有完美专家的一般情况,证明最佳的双重保证,即所提出的预测算法在最坏的情况下查询足够多的标签以获得最优的遗憾保证,同时在更温和的设置中查询更少的标签。
效果:数值实验表明,标签高效预测器的归一化遗憾可以渐近匹配已知的基于池的主动学习的最小最大速率,表明它可以优化适应温和的环境。
Towards Characterizing the First-order Query Complexity of Learning (Approximate) Nash Equilibria in Zero-sum Matrix Games
Hedi Hadiji Sarah Sachs Tim van Erven Wouter M Koolen
研究问题:本文旨在解决零和$K\times K$矩阵游戏中一阶查询模型的问题,即玩家如何通过对手的随机行动观察所有可能行动的预期收益。
动机:Rakhlin和Sridharan发现,可以从$O(\frac{\ln K}{epsilon})$次查询中有效地计算出$epsilon$-近似纳什均衡,而不是$O(\frac{\ln K}{epsilon^2})$次查询。然而,这种最优查询次数作为$\epsilon$和$K$的函数,目前尚不清楚。
方法:我们首先完全确定了学习精确均衡($epsilon=0$)的查询复杂度,即它们需要的查询次数与$K$呈线性关系。其次,对于$\epsilon > 0$,当前的查询复杂度上界为$O(\min(\frac{\ln(K)}{\epsilon} , K))$。然后,我们引入了一种新的技术来获得下界,该技术可以对任何$\epsilon \leq \frac{1}{cK^4}$获得下界$\tildeOmega(\log(\frac{1}{K\epsilon}))$,其中$c$是一个与$K$无关的常数。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。同时,我们也成功地降低了查询复杂度的上界。
No-Regret Learning in Dynamic Competition with Reference Effects Under Logit Demand
Mengzi Amy Guo Donghao Ying Javad Lavaei Zuo-Jun Shen
研究问题:本文旨在设计一种竞争框架下的算法,以学习稳定的均衡状态。
动机:在不透明的市场中,两家缺乏竞争对手信息的公司在动态价格竞争中进行考虑,并使用多变量逻辑选择模型来模拟消费者对价格和参考价格的观察。
方法:我们提出了在线投影梯度上升算法(OPGA),公司通过市场反馈机制获取的对数收入的一阶导数来调整价格。
效果:尽管在线游戏通常需要强单调性和变异稳定性等属性才能收敛,但我们证明,在减小步长的情况下,OPGA生成的价格和参考价格路径会收敛到唯一的稳定市场均衡点,实现了无遗憾学习和市场稳定,并且其收敛速度为O(1/t)。
Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with General Utilities
Donghao Ying YUNKAI ZHANG Yuhao Ding Alec Koppel Javad Lavaei
研究问题:我们研究了多智能体强化学习中的安全问题,即在满足自身安全约束的条件下,如何让多个智能体共同最大化局部目标的总和。
动机:由于智能体数量的增加,状态-动作空间的大小呈指数增长,给全局可观察性带来了挑战。同时,智能体的安全约束也产生了全局耦合的问题。
方法:我们提出了一种原-对偶方法,利用影子奖励和κ-hop邻居截断,其中κ是通信半径。在精确设置中,我们的算法以O(T^{-2/3})的速度收敛到一阶平稳点(FOSP)。在基于样本的设置中,我们证明了我们的算法需要O(ε^{-3.5})的样本来达到误差为O(φ_0^{2κ})的ε-FOSP,其中φ_0∈(0,1)。
效果:通过大量的数值实验,我们展示了模型的有效性。
Accelerating Value Iteration with Anchoring
Jongmin Lee Ernest K. Ryu
研究问题:寻找一种通用的加速机制,以提高值迭代(VI)在现代强化学习中的理论和实践效果。
动机:尽管值迭代是现代强化学习的基础,但其最优收敛速度尚未明确,因此寻找一种通用的加速机制一直是一个问题。
方法:本文提出了一种名为Anc-VI的加速值迭代方法,该方法基于锚定机制(与Nesterov的加速方法不同),可以比标准VI更快地减少Bellman误差。
效果:实验结果表明,当γ≈1或γ=1时,Anc-VI显示出了O(1/k)的收敛速度,而标准VI在γ≥1-1/k时的收敛速度为O(1)。此外,我们还提供了与上界相匹配的复杂性下界,从而确立了Anc-VI的最优加速率。最后,我们证明锚定机制在近似VI和高斯-赛德尔VI设置中也能提供相同的优势。
Robust Lipschitz Bandits to Adversarial Corruptions
Yue Kang Cho-Jui Hsieh Thomas Chun Man Lee
研究问题:本文提出了一种Lipschitz bandit问题,即在存在对抗性干扰的情况下,如何进行连续臂集的随机bandits学习。
动机:传统的随机bandits算法通常假设奖励函数是确定性的,但在实际情况中,奖励函数可能会受到对抗性干扰的影响。
方法:本文提出了一种新的Lipschitz bandit算法,该算法可以处理对抗性干扰,并实现了次线性遗憾。
效果:通过实验,本文证明了该算法在面对两种经典攻击时的有效性。
Connected Superlevel Set in (Deep) Reinforcement Learning and its Application to Minimax Theorems
Sihan Zeng Thinh T. Doan Justin Romberg
研究问题:本文旨在提高对强化学习中策略优化问题优化景观的理解。
动机:我们发现无论在表格设置下还是在使用一类神经网络表示的策略下,目标函数关于策略参数的超水平集始终是连通的。此外,我们还发现作为策略参数和奖励的函数的优化目标满足更强的“等连通性”属性。
方法:我们利用这些超水平集的连通性来推导鲁棒强化学习的极小极大定理。
效果:我们发现任何一侧凸而在另一侧等连通的极小极大优化程序都遵循极小极大等式(即具有纳什均衡)。这是首次在文献中建立这样的结果。
Multi-Player Zero-Sum Markov Games with Networked Separable Interactions
Chanwoo Park Kaiqing Zhang Asuman E. Ozdaglar
研究问题:本文研究了一种新的马尔科夫博弈类别,即具有网络分离交互的零和马尔科夫博弈(零和NMGS),以模拟非合作多智能体序列决策中的局部交互结构。
动机:为了解决传统马尔科夫博弈在处理复杂交互结构时的局限性,提出了一种具有网络分离交互的零和马尔科夫博弈模型。
方法:首先定义了零和NMGS,并找出了将MG表示为零和NMGS的必要充分条件。然后,证明了在这些游戏中,Markov粗相关均衡集(CCE)会塌陷为Markov纳什均衡集(NE)。接着,提出了零和NMGS的虚拟游戏动态,并建立了在星形网络结构下的收敛性保证。最后,针对计算Markov非平稳NE的问题,设计了一系列值迭代算法,并提供了有限迭代保证。
效果:实验结果验证了理论结果的正确性。
Time-Reversed Dissipation Induces Duality Between Minimizing Gradient Norm and Function Value
Jaeyeon Kim Asuman E. Ozdaglar Chanwoo Park Ernest K. Ryu
研究问题:本文旨在探讨凸优化中,如何有效地最小化函数值和梯度幅值的问题。
动机:尽管Nesterov在1983年的工作开创了关于最小化函数值的优化方法的研究,但近年来,Kim和Fessler的OGM-G以及Lee等人的FISTA-G等以最小化梯度幅值为目标的方法也受到了关注。
方法:本文提出了H对偶性理论,这是一种将最小化函数值的方法与最小化梯度幅值的方法相互对应的理论。在连续时间形式中,H对偶性对应于反转耗散/摩擦项的时间依赖性。
效果:通过H对偶性,我们更深入地理解了Nesterov方法和OGM-G之间的对称性,推导出了一类新的有效降低平滑凸函数梯度幅值的方法,并发现了一种比FISTA-G更简单、更快的复合最小化方法。
Recovering Unbalanced Communities in the Stochastic Block Model with Application to Clustering with a Faulty Oracle
Chandra Sekhar Mukherjee Pan Peng Jiapeng Zhang
研究问题:本文旨在解决在有不平衡社区的随机块模型(SBM)中,如何恢复大小各异的社区的问题。
动机:尽管平衡情况下的随机块模型(SBM)已被广泛研究,但具有不平衡社区的SBM在实践中更为常见,而我们对其理解仍然有限。
方法:本文提出了一种基于奇异值分解(SVD)的简单算法,用于恢复大小各异的社区。
效果:实验结果表明,当概率参数恒定时,该算法恢复的社区大小几乎最优。此外,作为副产品,我们还获得了一个具有次线性查询复杂度的高效聚类算法,即使在存在大量小社区的情况下,也能检测到所有大于 $\tilde{\Omega}({sqrt{n}})$ 的社区。
Distributionally Robust Bayesian Optimization with $\varphi$-divergences
Hisham Husain Vu Nguyen Anton van den Hengel
研究问题:在数据驱动的设置中,许多系统面临不确定性,因此对鲁棒性的研究受到了广泛关注。其中一个值得关注的例子是贝叶斯优化(BO),其中存在多方面的不确定性,但目前只有少数工作致力于这个方向。
动机:Kirschner等人的工作通过从分布鲁棒优化(DRO)的视角看待BO问题,连接了现有的文献。然而,这项工作存在一些实际的局限性,如有限上下文假设,留下了主要的问题:“能否设计出一种计算上易于处理的算法来解决这个DRO-BO问题?”
方法:在这项工作中,我们在很大程度上解决了这个问题,考虑了$\varphi$-散度中的数据偏移的鲁棒性,这包括了许多流行的选择,如$\chi^2$-散度、总变差和现有的Kullback-Leibler(KL)散度。
效果:我们表明,在这种设置下的DRO-BO问题等价于一个有限维的优化问题,即使在连续的上下文设置中,也可以容易地实现具有可证明的次线性遗憾界限。然后,我们通过实验证明,我们的方法超过了现有的方法,证明了理论结果的正确性。
Bayesian Active Causal Discovery with Multi-Fidelity Experiments
Zeyu Zhang Chaozhuo Li Xu Chen Xing Xie
研究问题:本文研究了基于多保真度查询的任务,即在高保真实验更精确但昂贵,低保真实验便宜但准确度较低的情境下进行主动因果发现的问题。
动机:为了解决在实验中如何有效利用不同精度的查询来获取最大信息的问题。
方法:首先引入了一个基于互信息的采集函数来确定应在哪个保真度上对哪个变量进行干预,然后提出了一个级联模型来捕捉不同保真度查询之间的关联性。此外,还扩展到了批量干预场景。
效果:通过引入新的ε-submodular概念和设计一种约束保真度模型,理论上验证了广泛使用的贪婪方法的有效性。大量实验表明该模型的有效性。
Optimal Extragradient-Based Algorithms for Stochastic Variational Inequalities with Separable Structure
Angela Yuan Chris Junchi Li Gauthier Gidel Michael Jordan Quanquan Gu Simon Shaolei Du
研究问题:解决具有分离结构的概率单调变分不等式问题。
动机:利用随机一阶查询,提出新的算法——随机加速梯度-外梯度(AG-EG),用于处理强单调变分不等式(VIs)。
方法:结合外梯度和Nesterov加速的优点,通过证明其迭代保持在有界域内并应用定时重启,证明了AG-EG对于强单调VIs具有最优的收敛速度。
效果:当专门处理双线性耦合强凸-强凹鞍点问题时,包括双线性游戏,我们的算法实现了与相应下界相匹配的精细收敛速度,其中随机性由一个常数因子的最佳上界的附加统计误差项来描述。
Asymptotically Optimal Quantile Pure Exploration for Infinite-Armed Bandits
Xiao-Yue Gong Mark Sellke
研究问题:如何有效地从未知分布生成的无限多个强盗手臂中选择单个高质量手臂,其平均奖励在概率1-δ下,ε范围内是顶部η-fraction的手臂。
动机:对于无限的动作集,经典的PAC保证需要进行适应。我们考虑固定信心和固定预算设置,分别旨在实现最优预期和固定的样本复杂度。
方法:对于固定信心,我们给出了一个期望样本复杂度为O(log(1/η)log(1/δ)/ηε^2)的算法。这是最优的,除了log(1/η)因子和δ依赖性关闭了文献中的二次差距。对于固定预算,当δ趋近于0时,我们展示了最优样本复杂度为c^{-1}log(1/δ)(loglog(1/δ))^2到主导项;等价地,恰好有N个样本的最优失败概率衰减为exp(-(1±o(1))cN/log^2 N)。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Exact Optimality of Communication-Privacy-Utility Tradeoffs in Distributed Mean Estimation
Berivan Isik Wei-Ning Chen Ayfer Ozgur Tsachy Weissman Albert No
研究问题:本研究关注在通信和本地差分隐私约束下的平均估计问题。
动机:尽管先前的研究已经提出了相同问题的最优算法(即随着使用的比特数增加,渐近最优),但在非渐近设置下的精确最优性仍未实现。
方法:我们通过使用共享随机变量(服务器和用户之间共享的随机变量)来描述精确最优方法,并确定了几种精确最优的条件。我们证明其中一个条件是利用旋转对称的共享随机码本。基于此,我们提出了一种随机化机制,其中码本是随机旋转的单纯形——满足精确最优码本的属性。所提出的机制是基于$k$-最近编码,我们证明它在随机旋转的单纯形码本下是精确最优的。
效果:实验结果表明,我们的方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Training Neural Networks is NP-Hard in Fixed Dimension
Vincent Froese Christoph Hertrich
研究问题:本研究探讨了使用ReLU和线性阈值激活函数训练两层神经网络的参数化复杂性,主要关注输入数据维度和隐藏神经元数量。
动机:尽管近年来这些问题的计算复杂性已被多次研究,但仍有几个问题尚未解决。
方法:通过对比Arora等人(ICLR 2018)和Khalife与Basu(IPCO 2022)的研究结果,证明了在二维情况下这两个问题都是NP-hard的,排除了常数维的任何多项式时间算法。同时,也回答了Froese等人(JAIR 2022)的问题,证明了当有四个ReLUs(或两个线性阈值神经元)且训练误差为零时,该问题是W[1]-hard的。
效果:最后,对于ReLU情况,如果假设网络计算一个凸映射,那么当考虑维度和ReLUs的组合参数数量时,我们证明了其固定参数的可追踪性。我们的研究结果几乎完全解决了这些参数的复杂性状态。
Gradient Descent with Linearly Correlated Noise: Theory and Applications to Differential Privacy
Anastasia Koloskova Ryan McKenna Zachary Charles J Keith Rush Hugh Brendan McMahan
研究问题:本研究关注在存在线性相关噪声的情况下进行梯度下降的问题。
动机:受到最近在差分隐私优化(如DP-FTRL)中实用方法的启发,这些方法在隐私放大技术不可行的情况下(如联邦学习)取得了良好的效果。这些方法通过矩阵分解机制注入隐私噪声,使噪声在迭代过程中保持线性相关。我们提出了一个简化的设置,提炼出这些方法的关键方面,并隔离了线性相关噪声的影响。
方法:我们在这种设置下分析了梯度下降的行为,包括凸函数和非凸函数。
效果:我们的结果明显优于先前的工作,并精确地恢复了多个重要的特殊情况(包括反相关的扰动梯度下降)。我们使用我们的结果为差分隐私优化开发了新的、有效的矩阵分解,并在理论上和实证上强调了这些分解的好处。
Optimality in Mean Estimation: Beyond Worst-Case, Beyond Sub-Gaussian, and Beyond $1+\alpha$ Moments
Trung Dang Jasper C.H. Lee Maoyuan Song Paul Valiant
研究问题:本文旨在探讨算法在均值估计问题上的基础统计理解,以了解从有限且有价值的数据中提取信息的极限。
动机:尽管现有的均值估计结果都是最优的,但它们只适用于最坏情况。因此,我们希望通过“超越最坏情况分析”来深入研究均值估计问题。
方法:我们构建了一个分布q_{n,δ},使得p和q的均值分离,但无法用n个样本以1-δ的概率区分p和q,同时保持p的有限矩不变。此外,如果p的方差存在,则q的方差最多是p的两倍。
效果:结果表明,任何合理的估计器都无法达到比最坏情况更好的结果,这与[Lee and Valiant, 2022]的结果相匹配。我们还引入了一个新的定义框架——“邻域最优性”,用于分析算法的精细最优性。
Initialization-Dependent Sample Complexity of Linear Predictors and Neural Networks
Roey Magen Ohad Shamir
研究问题:本文旨在研究向量值线性预测器(由矩阵参数化)和更一般的神经网络的样本复杂度。
动机:本研究关注与固定参考矩阵$W_0$的参数弗罗贝尼乌斯范数距离有关的尺寸独立界,并表明样本复杂度行为可能与我们考虑标量值线性预测器的已知设置时的预期不同。
方法:通过联合训练大规模文本语料库和知识图谱来训练ERNIE模型,使ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Kernelized Reinforcement Learning with Order Optimal Regret Bounds
Sattar Vakili Julia Olkhovskaya
研究问题:如何有效地处理具有复杂模型和大型状态-动作空间的强化学习问题。
动机:现有的分析结果通常关注于状态-动作数量较少或模型较简单的设置,如线性状态-动作值函数。为了推导出能有效处理大型状态-动作空间和更通用价值函数的RL策略,一些近期的研究考虑了使用核岭回归进行非线性函数近似。
方法:我们提出了π-KRVI,一种乐观修改的最小二乘值迭代法,当动作值函数由RKHS表示时。我们证明了在一般设置下的第一阶最优遗憾保证。
效果:我们的结果在多个实验中表现出比现有技术有显著的改进,特别是在使用高度非光滑内核(如Neural Tangent kernel或某些Matérn内核)的情况下,我们的方法实现了次线性的遗憾界限,这是已知的最低遗憾界限的情况(包括上述内核)。
Closing the gap between the upper bound and lower bound of Adam's iteration complexity
Bohan Wang Jingwen Fu Huishuai Zhang Nanning Zheng Wei Chen
研究问题:本文旨在解决Adam优化器在一阶优化下的收敛性问题,并建立其迭代复杂度的上下界。
动机:尽管已有一些关于Adam优化器收敛性的研究,但它们都没有达到新的理论界限。因此,作者希望通过新的理论分析,填补这一研究空白。
方法:本文通过推导新的收敛保证,仅使用L-平滑条件和有界的噪声方差假设,来缩小现有文献中Adam优化器收敛性的理论差距。
效果:实验结果表明,该方法在所有超参数范围内都有效。特别是在适当选择超参数的情况下,作者推导出Adam优化器的迭代复杂度上限,并证明它满足一阶优化器的下限,这是首次为Adam的收敛性建立如此紧密的上限。
Conformalized matrix completion
Yu Gui Rina Barber Cong Ma
研究问题:本文旨在解决矩阵补全问题中的不确定性量化问题,即如何估计数据矩阵中缺失的条目。
动机:尽管现有的矩阵补全算法可以有效地估计缺失的条目,但这个问题的不确定性量化却非常具有挑战性,且现有方法对模型误设非常敏感。
方法:本文提出了一种分布自由的预测推理方法,该方法将一致性预测框架适应到矩阵补全问题中,无论低秩模型的准确性如何,都能提供保证分布自由的预测区间。
效果:在模拟数据和真实数据上的实验结果表明,该方法对模型误设具有鲁棒性,当模型正确时,其性能与现有的基于模型的方法相匹配。
Momentum Provably Improves Error Feedback!
Ilyas Fatkhullin Alexander Tyurin Peter Richtárik
研究问题:分布式环境下训练机器学习模型的通信开销大,现代算法需要依赖有损压缩通信。但未经处理的压缩错误会导致严重不稳定的行为,包括指数发散。
动机:Seide等人在2014年提出了一种称为EF14的错误反馈机制,可以有效缓解这个问题。然而,尽管过去十年中EF领域在算法和理论上取得了稳步进展,但我们的理解还远远不够。
方法:我们解决了最紧迫的问题之一,特别是在标准的非凸设置中,所有已知的EF变体都需要非常大的批量大小才能收敛,这在实践中可能是不可接受的。我们提出了一个非常简单的解决方案,即对Richtárik等人在2021年提出的最新EF版本(称为EF21)应用Polyak动量。我们的算法被称为EF21-SGDM,它在标准的平滑度和有界方差假设下改进了以前错误反馈算法的通信和样本复杂度,并且不需要任何进一步的强假设,如梯度差异有界。
效果:我们的证明即使在压缩方法中移除后也是新颖的,因此在我们的证明技术中,对于包含Polyak动量的非凸随机优化的研究具有独立的兴趣。
Better Private Linear Regression Through Better Private Feature Selection
Travis Dick Jennifer Gillenwater Matthew Joseph
研究问题:现有的差分隐私线性回归方法通常需要用户精确设定数据边界或算法超参数,但用户在不直接查看数据的情况下很难满足这些要求。
动机:为了解决这一问题,本文提出了一种基于肯德尔等级相关性的差分隐私特征选择方法,将负担从用户转移到算法。
方法:该方法首先进行差分隐私的特征选择,然后再进行线性回归。通过引入基于肯德尔等级相关性的差分隐私特征选择方法,扩展了“即插即用”的私有线性回归算法在高维问题上的应用。
效果:在25个数据集上的实验表明,在进行回归之前添加这个私有特征选择步骤可以显著扩大“即插即用”私有线性回归算法的适用性,同时对用户的隐私、计算或决策增加的成本很小。
Data-Dependent Bounds for Online Portfolio Selection Without Lipschitzness and Smoothness
Chung-En Tsai Ying-Ting Lin Yen-Huan Li
研究问题:本文旨在为在线投资组合选择引入首个小损失和渐进变化遗憾界限。
动机:这是首次针对非Lipschitz、非平滑损失的在线凸优化问题,提出数据依赖的界限。
方法:我们提出的算法在最坏情况下表现出次线性遗憾率,当数据“容易”时,可以实现对数遗憾,每轮时间几乎与投资选择数量呈线性关系。
效果:通过使用新颖的对数损失平滑性描述、具有自协方差正则化器的FTRL的局部范数分析(这些不一定是障碍)、以及具有对数障碍的乐观FTRL的隐式变体,推导出了这些遗憾界限。
Replicability in Reinforcement Learning
Amin Karbasi Grigoris Velegkas Lin Yang Felix Zhou
研究问题:本文探讨了强化学习中复制性作为一种算法属性的数学研究,特别是在具有生成模型的折扣表格MDPs的基本设置中。
动机:受Impagliazzo等人的启发,如果两个独立同分布的样本从一个生成器中抽取,当其内部随机性相同时,一个强化学习算法以高概率输出完全相同的策略,我们就称这个算法是可复制的。
方法:首先,我们为$(\varepsilon, delta)$-最优策略估计提供了一个高效的$\rho$-可复制算法,其样本和时间复杂度为$\widetilde O\left(\frac{N^3\cdot\log(1/delta)}{(1-\gamma)^5\cdot\varepsilon^2cdot\rho^2}\right)$,其中$N$是状态-动作对的数量。然后,对于确定性算法的子类,我们提供了一个下界,其数量级为$Omega\left(\frac{N^3}{(1-\gamma)^3\cdot\varepsilon^2\cdot\rho^2}\right)$。接着,我们研究了Kalavasis等人[2023]提出的复制性的放松版本,称为TV不可区分性。我们设计了一个计算效率高的TV不可区分的算法进行策略估计,其样本复杂度为$\widetilde O\left(\frac{N^2\cdot\log(1/delta)}{(1-\gamma)^5\cdot\varepsilon^2cdot\rho^2}\right)$。在花费$\exp(N)$的运行时间的代价下,我们将这些TV不可区分的算法转化为$\rho$-可复制的算法,而不会增大它们的样本复杂度。最后,我们引入了近似可复制性的概念,只需要两个输出的策略在适当的统计距离(如Renyi)下接近即可。
效果:实验结果表明,我们的算法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Replicable Clustering
Hossein Esfandiari Amin Karbasi Vahab Mirrokni Grigoris Velegkas Felix Zhou
研究问题:如何设计具有统计聚类概念下的可复制性的算法。
动机:在Impagliazzo等人[2022]最近提出的定义下,如果一个聚类算法的内部随机性在不同的执行中共享,那么它就是可复制的,即在两次对同一分布的不同输入进行执行后,其输出以高概率引发完全相同的样本空间划分。
方法:通过黑箱方式利用其组合计数问题的近似程序,为统计$k$-medians、统计$k$-means和统计$k$-centers问题提出这样的算法。
效果:我们展示了一个具有$\operatorname{poly}(d)$样本复杂度的可复制的$O(1)$-approximation算法用于统计欧几里得$k$-medians($k$-means)。此外,我们还描述了一种带有额外$O(1)$-additive误差的$O(1)$-approximation算法用于统计欧几里得$k$-centers,尽管其样本复杂度为$\exp(d)$。另外,我们在使用sklearn中的$k$-means++实现作为黑箱的二维合成分布上进行了实验,验证了我们的理论结果。
Optimization of Inter-group criteria for clustering with minimum size constraints
Eduardo Sany Laber Lucas Murtinho
研究问题:评估聚类质量的内部指标通常考虑组内和/或组间标准,但组间标准的优化理解较少。
动机:文献中有许多算法具有可证明的近似保证,用于优化前者(组内标准)。然而,对组间标准(最小间距和最小生成树间距)的优化则知之甚少。
方法:我们设计了两种自然组间标准的最大化算法,即最小间距和最小生成树间距,并获得了无约束和有约束两种情况的结果。我们的约束条件是每个组必须包含最少数量的点,以解决流行的单链接法在无约束情况下产生许多小群集的问题。
效果:我们在10个真实数据集上进行了实证研究,结果表明我们的方法在实际环境中表现良好。
Optimal Time Complexities of Parallel Stochastic Optimization Methods Under a Fixed Computation Model
Alexander Tyurin Peter Richtárik
研究问题:如何提高优化方法的性能?
动机:优化方法需要并行化以提高性能,但并行优化方法的理论性质尚未完全探索。
方法:提出了一种新的协议,该协议扩展了经典的oracle框架方法,并建立了具有有界方差的无偏随机梯度oracle的并行优化方法的最小最大复杂性。
效果:结果对异步优化方法的文献产生了令人惊讶的影响。
2Direction: Theoretically Faster Distributed Training with Bidirectional Communication Compression
Alexander Tyurin Peter Richtárik
研究问题:本文研究了在服务器和工人之间的上行和下行通信都很昂贵的情况下的分布式凸优化问题。
动机:现有的加速方法中,通常使用的误差反馈机制并不适合用于加速方法,因此需要开发新的优化方法。
方法:提出了一种名为2Direction的新方法,该方法基于快速双向压缩通信和一种新的定制错误反馈机制。
效果:实验证明,2Direction方法在$\mu$强凸设置中,将先前最先进的通信复杂度从$\widetilde{\Theta}left(K \times \left(frac{L}{\alpha \mu} + \frac{L_{\max} \omega}{n \mu} + \omega\right)\right)$改进到了$\widetilde{\Theta}(K \times (\sqrt{\frac{L (\omega + 1)}{alpha \mu}} + \sqrt{frac{L_{\max} \omega^2}{n \mu}} + \frac{1}{\alpha} + \omega))$,是第一个超越基本加速梯度下降方法(AGD)的通信复杂度的方法。同时,在一般凸设置中也取得了类似的改进。
How many samples are needed to leverage smoothness?
Vivien Cabannes Stefano Vigogna
研究问题:本文旨在解决统计学习中平滑目标函数的学习和样本数量与输入维度比例小的问题。
动机:在机器学习问题中,由于样本数量和输入维度的比例相对较小,因此难以获取有意义的高阶导数估计,这阻碍了平滑目标函数的学习。
方法:通过推导新的泛化误差下界,本文形式化了这个直觉,并研究了常数和过渡阶段的作用,这些通常在经典学习理论陈述之外并未描绘出来,但在实践中起着主导作用。
效果:实验结果表明,该方法能够有效地解决统计学习中的平滑目标函数的学习和样本数量与输入维度比例小的问题。
Demographic Parity Constrained Minimax Optimal Regression under Linear Model
Kazuto Fukuchi Jun Sakuma
研究问题:本研究旨在探索线性模型中受人口平等约束的回归问题的最小最大最优误差。
动机:与Chzhen和Schreuder提出的模型相比,我们提出的模型涵盖了更广泛的歧视性偏见来源。
方法:我们的模型通过引入敏感属性产生的不同人口群体数量来描述歧视性偏见的来源。
效果:实验结果表明,随着模型中存在的偏见增加,最小最大误差也会增加。
No-regret Algorithms for Fair Resource Allocation
Abhishek Sinha Ativ Joshi Rajarshi Bhattacharjee Cameron N Musco Mohammad Hajiesmaili
研究问题:如何在无后悔的设置中,面对无限制的对手,公平地分配资源。
动机:解决全局公平性函数的不可分特性带来的困难,实现在线资源的公平分配。
方法:提出一种名为在线公平分配(OFA)的高效在线资源分配策略。
效果:该策略实现了次线性cα近似遗憾,且在参数α=1/2处表现出从幂律到常数的转变,解决了在线作业调度问题的某个参数区域的高效无遗憾策略设计问题。同时,引入了新的算法和分析技术,如非加性全局奖励函数的未来梯度贪婪估计和二阶遗憾边界的自举法。
Block Broyden's Methods for Solving Nonlinear Equations
Chengchang Liu Cheng Chen Luo Luo John C.S. Lui
研究问题:本文研究了求解非线性方程的拟牛顿方法。
动机:为了提高求解非线性方程的效率和准确性,提出了改进的Broyden方法。
方法:提出了块状版本的好与坏的Broyden方法,利用雅可比矩阵的多次秩修正来加速收敛速度,并直接估计雅可比矩阵的逆以降低计算成本。
效果:理论分析解释了为何好Broyden方法在大多数情况下优于坏Broyden方法,实验结果验证了所提方法的优越性。
Online Learning under Adversarial Nonlinear Constraints
Pavel Kolev Georg Martius Michael Muehlebach
研究问题:在线学习系统中,如何有效处理连续的非平稳数据流。
动机:许多应用中需要学习系统处理连续的、不断变化的数据流,并面临时间变化的非线性约束。
方法:提出一种名为“约束违反速度投影”(CVV-Pro)的算法,该算法仅依赖局部稀疏线性近似的可行集,避免在每次迭代中优化整个集合,从而高效地处理数据流和非线性约束。
效果:实验结果表明,CVV-Pro算法实现了$\sqrt{T}$遗憾并按$1/sqrt{T}$的速度收敛到可行集,即使在可行集缓慢变化且学习者事先未知的情况下也能有效工作。
(S)GD over Diagonal Linear Networks: Implicit bias, Large Stepsizes and Edge of Stability
Mathieu Even Scott Pesme Suriya Gunasekar Nicolas Flammarion
研究问题:本文探讨了随机性和大步长对梯度下降(GD)和随机梯度下降(SGD)在$2$-层对角线性网络中隐含正则化的影响。
动机:为了理解随机性和步长对恢复解决方案的影响,特别是对于稀疏回归问题和“稳定性边缘”区域的效果。
方法:通过在过度参数化的回归设置中证明GD和SGD的大步骤收敛性,并通过一个隐含的正则化问题来描述他们的解决方案。
效果:实验结果表明,大步长始终有利于SGD的稀疏回归问题,而它们可能会阻碍GD恢复稀疏解。这些影响在刚好低于发散阈值的“稳定性边缘”区域中的紧密窗口内步长时被放大。
Toward Better PAC-Bayes Bounds for Uniformly Stable Algorithms
Sijia Zhou Yunwen Lei Ata Kaban
研究问题:在PAC-Bayesian框架下,为均匀稳定随机化算法提供更精确的界限。
动机:通过改进现有结果,提高样本大小的估计精度。
方法:利用Bousquet等人(2020)提出的弱相关随机变量的集中性来约束泛化差距的矩生成函数。引入次指数稳定性参数的假设,以实现对随机梯度下降和随机坐标下降的应用。
效果:消除了先前结果中强凸性的要求,适用于非光滑凸问题。
On the Convergence of Black-Box Variational Inference
Kyurae Kim Jisu Oh Kaiwen Wu Yian Ma Jacob R. Gardner
研究问题:本文旨在为黑箱变分推断(BBVI)提供首次收敛保证。
动机:尽管初步的调查在简化版的BBVI上进行(例如,有界领域、有界支持、仅优化规模等),但我们的设置不需要任何此类算法修改。
方法:我们使用重参数化梯度为黑箱变分推断提供首次收敛保证,适用于具有和不具有强对数凹性的对数平滑后验密度以及位置-尺度变分族。
效果:值得注意的是,我们的分析揭示了在实践中通常采用的某些算法设计选择,如尺度矩阵的非线性参数化,可能导致次优的收敛速度。幸运的是,使用近端随机梯度下降运行BBVI可以解决这些限制,从而实现已知的最强大的收敛保证。我们通过比较近端SGD与其他标准的BBVI实现方式来评估这一理论洞察,应用于大规模的贝叶斯推理问题。
On Private and Robust Bandits
Yulian Wu Xingyu Zhou Youming Tao Di Wang
研究问题:我们研究了私有且鲁棒的多臂老虎机(MABs),其中代理
动机:尽管初步的调查在简化版的BBVI上进行(例如,有界领域、有界支持、仅优化规模等),但我们的设置不需要任何此类算法修改。
方法:我们使用重参数化梯度为黑箱变分推断提供首次收敛保证,适用于具有和不具有强对数凹性的对数平滑后验密度以及位置-尺度变分族。
效果:值得注意的是,我们的分析揭示了在实践中通常采用的某些算法设计选择,如尺度矩阵的非线性参数化,可能导致次优的收敛速度。幸运的是,使用近端随机梯度下降运行BBVI可以解决这些限制,从而实现已知的最强大的收敛保证。我们通过比较近端SGD与其他标准的BBVI实现方式来评估这一理论洞察,应用于大规模的贝叶斯推理问题。
Closing the Computational-Statistical Gap in Best Arm Identification for Combinatorial Semi-bandits
Ruo-Chun Tzeng Po-An Wang Alexandre Proutiere Chi-Jen Lu
研究问题:本文研究了固定置信度设置下的组合半鞅中的最佳手臂识别问题。
动机:现有的算法无法在高置信度和中等置信度下同时实现实例特定的最小样本复杂度,因此需要一种新方法来缩小计算统计差距。
方法:提出了一种名为“干扰式弗兰克-沃尔夫采样”(P-FWS)的算法,该算法能在多项式时间内运行,并在高置信度下实现实例特定的最小样本复杂度,同时在中等置信度下享有多项式样本复杂度保证。
效果:通过P-FWS,我们成功解决了组合半鞅中最佳手臂识别的计算统计差距问题。
A Smooth Binary Mechanism for Efficient Private Continual Observation
Rasmus Pagh Joel Daniel Andersson
研究问题:在持续观察的情况下,如何发布基于随时间演变的数据集的差分隐私估计。
动机:发布私人前缀和的问题已经得到了很好的研究,并在最先进的私人随机梯度下降(SGD)方法中得到了广泛应用。
方法:提出了一种简单的替代二进制机制的方法,生成噪声的平均时间恒定,与二进制机制相比,方差降低了约4倍,每一步的噪声分布相同。
效果:实证表明,这种方法的运行时间优于Henzinger等人的方法,以及使用高性能Toeplitz矩阵乘法算法改进他们的算法的尝试。
Similarity, Compression and Local Steps: Three Pillars of Efficient Communications for Distributed Variational Inequalities
Aleksandr Beznosikov Martin Takáč Alexander Gasnikov
研究问题:本文旨在解决变分不等式问题,这是一种广泛且灵活的问题类别,包括最小化、鞍点和固定点问题。
动机:由于数据和模型规模的增大,现今的实例需要并行和分布式计算来解决实际的机器学习问题,其中大部分可以表示为变分不等式。然而,大多数分布式方法存在明显的瓶颈——通信成本。
方法:本文结合了局部函数相似性、传输信息的压缩以及局部更新这三种主要技术,以减少总的通信轮数和单轮通信的成本。这种三重协同在变分不等式和鞍点问题上是前所未有的,甚至在最小化问题上也没有。
效果:本文提出的方法在通信复杂度上具有最好的理论保证,并且明显领先于其他分布式变分不等式方法。理论结果通过对抗性学习实验在合成和真实数据集上得到了验证。
Leveraging the two-timescale regime to demonstrate convergence of neural networks
Pierre Marion Raphaël Berthier
研究问题:本研究探讨了浅层神经网络在内外层学习率相差较大的双时间尺度训练动态。
动机:在内外层学习率差距大的双时间尺度下,我们证明了梯度流会收敛到一个非凸优化问题的全局最优解。
方法:我们在简单的一元设置中证明了梯度流的收敛性,并指出神经元数量不需要渐近地大,这与近期流行的神经网络切线核或平均场机制等方法有所不同。
效果:实验证明,随机梯度下降按照我们对梯度流的描述进行,因此在双时间尺度下会收敛到全局最优解,但在该尺度之外可能会失败。
A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence
Carlo Alfano Rui Yuan Patrick Rebeschini
研究问题:本文旨在提出一种新的基于镜像下降的策略优化框架,以适应一般参数化策略。
动机:尽管在表格设置中已经为这类算法建立了理论保证,但通用参数化方案的使用仍然没有得到充分证明。
方法:我们引入了一个新的基于镜像下降的策略优化框架,该框架自然地适应了一般的参数化策略。
效果:我们的研究首次证明了涉及一般参数化的策略梯度方法的线性收敛性。此外,我们还展示了该框架在使用浅层神经网络时具有样本复杂度,并表明它超越了之前的最佳结果。最后,我们在经典控制任务上验证了我们的理论主张的有效性。
Stochastic Distributed Optimization under Average Second-order Similarity: Algorithms and Analysis
Dachao Lin Yuze Han Haishan Ye Zhihua Zhang
研究问题:本研究针对包含一个主节点和$n-1$个局部节点的有限和分布式优化问题进行研究,考虑了$\delta$-相似性和$\mu$-强凸性条件。
动机:受先前工作启发,我们提出了两种新算法SVRS和AccSVRS。
方法:非加速的SVRS方法结合了梯度滑动和方差减少的技术,与现有的非加速算法相比,实现了更好的通信复杂度$\tilde{mathcal{O}}(n {+} \sqrt{n}\delta/mu)$。通过应用Katyusha X提出的框架,我们还开发了一个直接加速的版本AccSVRS,其通信复杂度为$\tilde{\mathcal{O}}(n {+} n^{3/4}\sqrt{\delta/\mu})$。
效果:与现有结果相比,我们的复杂度界限完全无平滑性,并且在病态情况下表现出优越性。此外,我们还建立了一个几乎匹配的下界,以验证我们的AccSVRS方法的紧密性。
An Information Theory Perspective on Variance-Invariance-Covariance Regularization
Ravid Shwartz-Ziv Randall Balestriero Kenji Kawaguchi Tim G. J. Rudner Yann LeCun
研究问题:本文旨在从信息论的角度探讨Variance-Invariance-Covariance Regularization (VICReg)方法的基本机制。
动机:尽管VICReg在各种任务上表现出了有希望的结果,但其基本机制尚未得到探索。
方法:通过推导确定性网络的信息论量,并将其与VICReg目标的优化相关联,将VICReg的目标优化与互信息优化联系起来,并引出其固有的优势。
效果:基于这些结果,我们提出了一种基于信息论原理的SSL方法,该方法优于现有的SSL技术。
Faster Differentially Private Convex Optimization via Second-Order Methods
Arun Ganesh MAHDI HAGHIFAM Thomas Steinke Abhradeep Guha Thakurta
研究问题:本文旨在探讨使用损失函数的二阶信息来加速具有隐私保护的凸优化问题的可行性。
动机:在没有隐私约束的情况下,二阶方法如牛顿法比一阶方法如梯度下降法具有更快的收敛速度。
方法:本文首先开发了一种受隐私保护的正则化牛顿法,并证明对于强凸损失函数类,该算法具有二次收敛性并实现最优超额损失。然后设计了一种实用的无约束逻辑回归问题的二阶隐私保护算法。
效果:实验结果表明,与其他基线相比,该算法始终实现最优超额损失,并且在挑战性数据集上比DP-GD/DP-SGD快10-40倍。
Counting Distinct Elements Under Person-Level Differential Privacy
Thomas Steinke Alexander Knop
研究问题:如何在满足差分隐私约束的条件下,对数据集中的不同元素进行计数。
动机:在个人级别的差分隐私(也称为用户级别差分隐私)设置中,每个个体可能贡献无限数量的项目,因此敏感性是无限的。
方法:计算这种查询的有界敏感性版本,这归结为解决最大流问题。敏感性边界被优化以平衡必须添加以使答案私有化的噪声与有界敏感性查询对真实唯一元素数量的近似值的误差。
效果:实验结果表明,该方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Faster Discrete Convex Function Minimization with Predictions: The M-Convex Case
Taihei Oki Shinsaku Sakaue
研究问题:本文旨在利用机器学习预测来加速优化算法。
动机:近年来,人们越来越关注使用机器学习预测来加速优化算法。作者开发了一个通用框架,以预测启动L-凸函数最小化方法,揭示了这一思想对各种离散优化问题的实用性。
方法:本文提出了一个使用预测来加速M-凸函数最小化的框架,从而补充了以前的研究,并扩大了可以从预测中受益的离散优化算法的范围。
效果:实验结果表明,该方法可以改进时间复杂度界线,甚至有可能超越下界结果。
topic-8
models language model tasks pre large human text
Linguistic Binding in Diffusion Models: Enhancing Attribute Correspondence through Attention Map Alignment
Royi Rassin Eran Hirsch Daniel Glickman Shauli Ravfogel Yoav Goldberg Gal Chechik
研究问题:文本条件图像生成模型在实体和视觉属性之间的关联上常产生错误,映射语言提示中实体和修饰词的绑定与生成图像中对应元素的视觉绑定受损。
动机:为了解决这一问题,我们提出了SynGen方法,该方法首先对提示进行句法分析以识别实体及其修饰词,然后使用一种新的损失函数来鼓励交叉注意力图与语言提示反映的语言学绑定一致。
方法:具体来说,我们鼓励实体和其修饰词的注意力图之间有较大的重叠,与其他实体和修饰词单词的注意力图有较小的重叠。这种损失在推理过程中进行优化,无需重新训练或微调模型。
效果:在包括一个新的具有挑战性的数据集在内的三个数据集上的人类评估显示,SynGen相比当前最先进的方法有了显著的改进。这项工作强调了在推理过程中利用句子结构可以有效且大幅度提高文本到图像生成的忠实度。
Learning Transformer Programs
Dan Friedman Alexander Wettig Danqi Chen
研究问题:如何通过训练可解释的Transformer模型,实现对深度学习算法的内在理解。
动机:目前的深度学习模型虽然强大,但其内部运行机制复杂难懂,需要大量的手动操作才能解析网络权重和激活值。
方法:本文提出了一种新方法,通过设计并训练一种改进的Transformer模型,该模型可以自动转化为人类可读的程序,称为“Transformer程序”。
效果:实验证明,这种Transformer程序不仅可以找到合理的解决方案,性能与同等规模的常规Transformer相当,更重要的是,它易于解释。
QLoRA: Efficient Finetuning of Quantized LLMs
Tim Dettmers Artidoro Pagnoni Ari Holtzman Luke Zettlemoyer
研究问题:如何减少预训练语言模型的内存使用,同时保持其性能?
动机:目前的预训练语言模型在大型GPU上进行微调时,内存使用过大。
方法:提出了一种名为QLoRA的高效微调方法,通过4位量化预训练语言模型到低秩适配器(LoRA)进行反向传播梯度,实现了在单个48GB GPU上微调650亿参数模型,同时保持了16位微调任务的性能。
效果:该方法减少了内存使用,同时没有牺牲性能。实验结果表明,该方法在所有先前公开发布的模型上表现优于Vicuna基准测试,达到了ChatGPT性能水平的99.3%,并且只需要在单个GPU上进行24小时的微调。
Why think step by step? Reasoning emerges from the locality of experience
Ben Prystawski Michael Y. Li Noah Goodman
研究问题:本文旨在探究语言模型中逐步推理(chain-of-thought reasoning)的作用及其有效性。
动机:人类通过逐步推理进行推断,同样地,大型语言模型在生成中间步骤(思维链)后再回答问题时,通常会产生更好的答案。
方法:通过实验和理论分析,研究了当训练数据由相互强烈影响的局部变量簇组成时,逐步推理为何有效。
效果:研究发现,当训练数据具有局部结构并考虑变量之间的依赖关系时,逐步推理是有效的。结合局部结构化观察和推理比对所有变量进行训练更为高效。这些结果揭示了逐步推理的有效性源于训练数据的局部统计结构。
Brain Diffusion for Visual Exploration: Cortical Discovery using Large Scale Generative Models
Andrew Luo Margaret Marie Henderson Leila Wehbe Michael J. Tarr
研究问题:揭示大脑的功能组织。
动机:传统的研究方法依赖于手动组装的刺激集,这限制了对大脑功能组织的理解。
方法:引入数据驱动的方法,通过配对的自然图像和fMRI记录来合成预测激活特定大脑区域的图像。
效果:证明了该方法能够为被充分表征的类别选择性ROIs合成具有适当语义特异性的优选图像,并揭示了人类视觉皮层中同一高级类别选择性ROIs之间的差异以及新的功能性子划分。
Are Emergent Abilities of Large Language Models a Mirage?
Rylan Schaeffer Brando Miranda Sanmi Koyejo
研究问题:本文旨在探讨大型语言模型的“涌现能力”,即在较大规模模型中出现而在较小规模模型中未出现的能力,并对其产生的原因进行解析。
动机:涌现能力的出现具有尖锐性和不可预测性,引发了研究者对其产生原因的关注和探讨。
方法:本文提出了一种新的解释方式,认为涌现能力的产生并非由于模型行为的根本变化,而是研究者选择的度量标准不同导致的。非线性或不连续的度量标准会产生明显的涌现能力,而线性或连续的度量标准则会导致模型性能的平滑、连续和可预测的变化。
效果:通过数学模型和三种互补的方法进行了验证,证实了这种新的解释方式,并提供了证据表明所谓的涌现能力可能会随着不同的度量标准或更好的统计结果而消失,可能并非AI模型规模扩展的基本属性。
Human-like Few-Shot Learning via Bayesian Reasoning over Natural Language
Kevin Ellis
研究问题:模型的概念学习中存在一个核心的矛盾,即模型必须在推理的可处理性和假设类的表达能力之间进行精细的平衡。
动机:然而,人类能够有效地学习广泛的概念。
方法:我们引入了一种归纳学习方法,该方法试图在那种意义上类似于人类。它实现了一种贝叶斯推理过程,其中语言模型首先提出用自然语言表达的候选假设,然后由先验和似然性重新加权。
效果:通过从人类数据中估计先验,我们可以预测人类对涉及数字和集合的学习问题的评判,涵盖生成性、判别性、命题性和高阶概念。
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
Shunyu Yao Dian Yu Jeffrey Zhao Izhak Shafran Thomas L. Griffiths Yuan Cao Karthik R Narasimhan
研究问题:如何让语言模型在推理过程中进行探索、策略前瞻或初始决策,以解决需要这些能力的任务。
动机:现有的语言模型在推理过程中仅限于基于标记的、从左到右的决策过程,这在一些需要探索、策略前瞻或初始决策的任务中可能无法满足需求。
方法:提出了一种新的语言模型推理框架——思维树(ToT),它对流行的思维链提示语言模型的方法进行了泛化,并允许在通向问题解决的文本(思维)单位上进行探索。
效果:实验表明,思维树显著提高了语言模型在三个新任务上的解决问题能力,这些任务需要复杂的规划或搜索,例如24点游戏、创意写作和迷你字谜。
Image Captioners Are Scalable Vision Learners Too
Michael Tschannen Manoj Kumar Andreas Peter Steiner Xiaohua Zhai Neil Houlsby Lucas Beyer
研究问题:本文比较了在大规模多模态模型中,图像-文本对的对比预训练和图像标注两种预训练策略的效果。
动机:尽管对比预训练在视觉骨干网络中非常流行,但人们通常认为图像标注是一种效果较差的预训练策略。
方法:通过仔细匹配训练数据、计算资源和模型容量,使用标准的编码器-解码器转换器进行实验,发现仅图像标注就非常有效。
效果:实验结果表明,图像标注产生的视觉编码器在分类任务上与对比预训练的编码器具有竞争力,而在视觉和语言任务上则超过它们。
Toolformer: Language Models Can Teach Themselves to Use Tools
Timo Schick Jane Dwivedi-Yu Roberto Dessi Roberta Raileanu Maria Lomeli Eric Hambro Luke Zettlemoyer Nicola Cancedda Thomas Scialom
研究问题:如何让语言模型通过简单的API使用外部工具,并实现最佳效果。
动机:尽管语言模型在解决新任务上表现出色,但在基本功能如算术或事实查找方面却表现不佳,而更小的专用模型在这方面却很优秀。
方法:提出Toolformer模型,该模型可以自行决定何时调用哪个API,传递什么参数,以及如何将结果融入未来的标记预测中。
效果:Toolformer在一系列下游任务上的零样本性能得到了显著提高,通常与更大的模型具有竞争力,同时不牺牲其核心的语言建模能力。
Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity
Zijiao Chen Jiaxin Qing Juan Helen Zhou
研究问题:如何从大脑活动中重建连续的视觉体验,即视频。
动机:理解人类的认知过程,以及从非侵入性脑记录中恢复静态图像的成功尝试。
方法:通过蒙版大脑建模、带有时空注意力的多模态对比学习以及结合网络时间膨胀的增强稳定扩散模型进行共同训练,从连续的皮层功能磁共振成像数据中逐步学习时空信息。
效果:使用对抗性引导,Mind-Video能够成功重建高质量任意帧率的视频。在语义分类任务上平均准确率达到85%,结构相似性指数(SSIM)为0.19,比先前最先进的方法提高了45%。此外,该模型在生物学上是可信且可解释的,反映了已建立的生理过程。
ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings
Shibo Hao Tianyang Liu Zhen Wang Zhiting Hu
研究问题:如何有效地将大型语言模型(LLMs)与各种工具集成,以解决计算成本高和固定工具集限制的问题。
动机:现有的方法要么通过微调LLM来适应新工具,这既计算量大又局限于固定的工具集;要么通过上下文工具演示提示LLM,但这在展示许多新工具时受到LLM固有的上下文长度限制,且难以通过少量示例掌握新工具集,导致性能不佳。
方法:提出一种名为ToolkenGPT的新解决方案,其中LLM通过工具嵌入有效地学习掌握工具作为预测标记来解决复杂任务。在这个框架中,每个工具都被转化为向量嵌入并插入到语言模型的头部。一旦在文本生成过程中触发该功能,LLM就会进入一种特殊的函数模式来执行工具调用。
效果:实验表明,功能嵌入有效地帮助LLM理解工具的使用,并在几个任务上有所改进,包括数值推理、基于知识的问答和具身决策。
Visual Instruction Tuning
Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee
研究问题:如何利用机器生成的指令跟随数据对大型语言模型进行微调,以提高其在多模态领域的零样本能力。
动机:尽管在单模态领域使用语言-图像指令跟随数据进行模型微调已取得一定成果,但在多模态领域的探索还相对较少。
方法:首次尝试使用纯语言的GPT-4生成语言-图像指令跟随数据,并通过对这些数据的指令微调,训练出端到端的大型多模态模型LLaVA。LLaVA将视觉编码器和语言模型连接起来,用于通用的视觉和语言理解。
效果:实验表明,LLaVA在多模态聊天方面表现出色,有时在未见过的图像/指令上展现出类似多模态GPT-4的行为,并在一个合成的多模态指令跟随数据集上取得了相对于GPT-4 85.1%的相对分数。当在科学问答任务上进行微调时,LLaVA与GPT-4的协同作用达到了新的最先进的准确率92.53%。
Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective
Guhao Feng Bohang Zhang Yuntian Gu Haotian Ye Di He Liwei Wang
研究问题:本文旨在探索链式思维提示(CoT)在大型语言模型(LLMs)中的作用机制,以及如何解锁其潜力。
动机:尽管链式思维提示(CoT)在处理涉及数学或推理的复杂任务时,能显著提高大型语言模型(LLMs)的性能,但其背后的机制和如何发挥其潜力仍然不清楚。
方法:本文使用电路复杂度理论,首先给出了一些不可能的结果,表明有限深度的Transformers无法直接生成正确的基本算术/方程任务的答案,除非模型大小随输入长度呈超多项式增长。然后通过构造证明,自动回归的Transformers只需使用一种常用的数学语言格式生成CoT推导,就可以解决这两种任务,且模型大小恒定。此外,我们还展示了LLMs with CoT可以处理动态规划这一类别的决策问题,从而证明了其在处理复杂实际任务中的强大能力。
效果:实验结果表明,虽然Transformers始终无法直接预测答案,但它们可以在给定足够的CoT演示的情况下,逐步学习生成正确的解决方案。
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection
Yu Bai Fan Chen Huan Wang Caiming Xiong Song Mei
研究问题:本文旨在为基于transformer架构的神经序列模型提供一种全面的统计理论,使其能够进行上下文学习(ICL)。
动机:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:通过大规模文本语料库和知识图谱训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
STEVE-1: A Generative Model for Text-to-Behavior in Minecraft
Shalev Lifshitz Keiran Paster Harris Chan Jimmy Ba Sheila A. McIlraith
研究问题:如何构建能响应文本指令的AI模型,特别是在顺序决策任务中。
动机:现有的AI模型在处理顺序决策任务时面临挑战,需要开发新的模型和方法。
方法:本文提出了一种名为STEVE-1的Minecraft视频预训练模型,通过两步训练法使模型学会遵循文本指令。首先,将预训练的VPT模型适应到MineCLIP的潜在空间中以执行命令;然后,训练一个模型来预测文本的潜在代码。
效果:实验结果表明,STEVE-1在低成本(只需60美元)和低层次控制(鼠标和键盘)的情况下,能够出色地完成12项中的13项早期游戏评估任务,显著优于先前的基线模型。
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training
Zeqiu Wu Yushi Hu Weijia Shi Nouha Dziri Alane Suhr Prithviraj Ammanabrolu Noah A. Smith Mari Ostendorf Hannaneh Hajishirzi
研究问题:现有的语言模型在生成文本时,常常会产生不真实、有害或无关的输出。
动机:虽然利用人类反馈进行强化学习(RLHF)可以解决这些问题,但这种全面反馈方式对长文本输出的信息有限,无法明确指出哪些部分影响了用户的偏好。
方法:本文提出了细粒度RLHF框架,使用细粒度的人类反馈(如哪句是错的,哪个子句是不相关的)作为明确的训练信号。该框架在两个方面提供细粒度的奖励:一是密度,每生成一个部分(如一句)就提供奖励;二是结合多种与不同反馈类型(如事实错误、不相关和信息不完整)相关的奖励模型。
效果:实验结果显示,通过这种奖励函数的学习,可以显著提高性能,无论是自动评估还是人工评估都得到了支持。此外,我们还展示了可以通过不同的细粒度奖励模型组合来定制LM的行为。
Scale Alone Does not Improve Mechanistic Interpretability in Vision Models
Roland S. Zimmermann Thomas Klein Wieland Brendel
研究问题:随着AI系统的广泛使用,理解神经网络的内部信息处理变得越来越重要。最近,通过在数据集和模型规模上扩大神经网络的规模,机器视觉取得了显著的进步。我们想知道这种规模的扩大是否也对机械可解释性领域产生了积极的影响。换句话说,我们对规模扩大的神经网络内部工作机制的理解是否也有改善?
动机:我们使用心理物理范式来量化九种模型的一种形式的机械可解释性,发现规模扩大对可解释性没有影响——无论是模型还是数据集规模。具体来说,与近十年前的GoogLeNet模型相比,调查中的所有最先进的模型都没有更容易解释。最新的视觉模型似乎比旧的架构更不易解释,这表明现代模型牺牲了可解释性以换取准确性。这些结果强调了需要明确设计成机械可解释性的模型,以及需要更有效的可解释性方法来增加我们对网络原子级别的理解。
方法:我们发布了一个包含13万多个人类响应的数据集,这些响应来自我们对九个模型的767个单位的心理学评估。这个数据集促进了基于自动化而不是人工的可解释性评估的研究,这最终可以用来直接优化模型的机械可解释性。
效果:实验结果表明,在各种知识驱动任务上,ERNIE取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。同时,我们发现最新一代的视觉模型比旧的架构更不易解释,这暗示着现代模型在牺牲可解释性以换取准确性方面可能正在倒退。
In-Context Impersonation Reveals Large Language Models' Strengths and Biases
Leonard Salewski Stephan Alaniz Isabel Rio-Torto Eric Schulz Zeynep Akata
研究问题:本研究旨在探索预训练语言模型(LLMs)在生成文本时是否能扮演不同的角色。
动机:人类在日常生活中可以扮演不同的角色,并调整自己的词汇以适应所选的角色。我们想知道预训练语言模型是否也能做到这一点。
方法:通过在提示前添加与社交身份或专业领域相关的人称,让LLMs在解决视觉和语言任务之前假设不同的人物角色。
效果:实验结果表明,假装成不同年龄的儿童的LLMs能够恢复类似人类的探索发展阶段。在语言推理任务中,假装成专业领域的专家的LLMs的表现优于假装成非专业领域的专家的LLMs。此外,我们发现,当描述不同类别时,模仿可以提高性能:被提示为鸟类专家的LLMs对鸟类的描述比被提示为汽车专家的LLMs更好。然而,模仿也可能会揭示LLMs的偏见:被提示为男性的LLMs对汽车的描述比被提示为女性的LLMs更好。这些发现表明,LLMs有能力扮演不同的角色,并且这种上下文中的模仿可以用来揭示他们的优势和隐藏的偏见。
Towards In-context Scene Understanding
Ivana Balazevic David Steiner Nikhil Parthasarathy Relja Arandjelovic Olivier J Henaff
研究问题:本文旨在探索一种简单机制,通过提示标注特征进行最近邻检索,实现密集任务如语义分割和深度估计的上下文学习。
动机:与自然语言处理领域相比,计算机视觉领域在上下文学习方面进展较慢,通常需要专门的解码器和微调协议来执行密集任务。
方法:提出一种新的预训练协议,利用图像内的和跨图像的注意力,得到对这种场景理解任务特别有用的表示。
效果:由此产生的蜂鸟模型,在适当提示下,无需修改即可执行各种场景理解任务,性能接近专门针对每个任务进行微调的专家模型。此外,蜂鸟模型可以比微调模型更高效地配置以执行新任务,提高了交互式助手中的场景理解的可能性。
Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models
Peter Hase Mohit Bansal Been Kim Asma Ghandeharioun
研究问题:如何有效地改变预训练语言模型中存储的事实信息。
动机:现有的方法将事实信息定位到特定的模型参数,如中层MLP权重,但这种方法并不能保证最佳的效果。
方法:通过编辑与现有方法建议的位置不同的权重,来改变模型中存储的事实信息。
效果:实验结果表明,事实信息的本地化结论并不能提供任何关于哪个模型MLP层最适合编辑的洞察,而编辑的层数是预测性能的更好指标。这提出了一个问题,即过去依赖因果追踪选择要编辑的模型层的工作是否有效。
The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs
Laura Eline Ruis Akbir Khan Stella Biderman Sara Hooker Tim Rocktäschel Edward Grefenstette
研究问题:评估语言模型在语境中解释语言的能力,特别是其是否能理解含意。
动机:尽管语言模型广泛应用于对话代理,但性能评估未能捕捉到交流的关键方面:在语境中解释语言,即包含其语用学。
方法:设计了一个简单的任务,对四种广泛使用的最先进的模型进行了评估。
效果:发现尽管只评估需要二元推理(是或否)的表述,三类模型的表现接近随机。然而,通过示例级别调整的语言模型表现显著更好。这些结果表明,某些微调策略能更好地引导模型理解语用学。
Tracr: Compiled Transformers as a Laboratory for Interpretability
David Lindner Janos Kramar Sebastian Farquhar Matthew Rahtz Thomas McGrath Vladimir Mikulik
研究问题:如何将人类可读的程序编译为标准的只解码的transformer模型。
动机:当前的transformer模型学习到的程序结构未知,使得评估解释性方法的成功与否变得困难。
方法:开发了一个名为Tracr的编译器,可以将人类可读的程序编译为具有已知结构的transformer模型。
效果:通过实现和检查包括计算词频、排序和括号检查在内的程序,证明了这种方法的有效性。同时,这种已知的结构可以作为评估解释性方法的基准。
Schema-learning and rebinding as mechanisms of in-context learning and emergence
Sivaramakrishnan Swaminathan Antoine Dedieu Rajkumar Vasudeva Raju Murray Shanahan Miguel Lazaro-Gredilla Dileep George
研究问题:本文旨在揭示基于变压器的大型语言模型(LLMs)中的内联学习(ICL)机制。
动机:尽管内联学习是大型语言模型中一种强大且意外的能力,但其背后的机制尚不清楚。
方法:通过使用克隆结构因果图(CSCGs)的替代序列预测学习方法,作者展示了可以获得类似的内联学习能力。此外,CSCGs的关键特性是它们与基于变压器的LLMs不同,它们是可解释的,这大大简化了解释内联学习如何工作的任务。
效果:作者收集证据支持这样一个假设,即类似的机制也存在于LLMs中的内联学习。例如,他们发现,无论是使用CSCGs还是LLMs,不同的能力在不同的过参数化水平上出现,这表明过参数化有助于学习更复杂的模板电路。通过展示如何使用小模型和数据集实现内联学习,作者为新的架构开辟了一条道路,并朝着更全面理解这一重要能力背后的机制迈出了重要一步。
Curriculum Learning With Infant Egocentric Videos
Saber Sheybani Himanshu Hansaria Justin Newell Wood Linda B. Smith Zoran Tiganj
研究问题:婴儿视觉输入属性的变化是否对视觉系统的正常发展有益或至关重要?
动机:通过使用头戴式摄像机录制的婴儿视频,训练各种自监督学习模型,以了解婴儿视觉输入属性的变化对其视觉系统发展的影响。
方法:将婴儿数据按年龄组进行分类,并评估按照发育顺序进行培训的重要性。从最年轻的年龄组开始学习,发现这种学习方式提供了最强的学习信号,并在下游任务性能方面取得了最好的学习成果。
效果:结果表明,最年轻年龄组的数据之所以具有优势,是因为其视觉体验的速度和简单性。这些结果为使用人工智能中的图像计算模型来逆向工程新生儿大脑的学习机制提供了有力的实证证据。
On the Planning Abilities of Large Language Models - A Critical Investigation
Karthik Valmeekam Matthew Marquez Sarath Sreedharan Subbarao Kambhampati
研究问题:本文旨在调查在通用网络语料库上训练的LLMs的新兴推理能力,特别是他们的计划能力。
动机:对LLMs在常识规划任务中自主生成计划的能力及其作为其他代理(AI规划器)规划任务中启发式指导来源的潜力感兴趣。
方法:通过在类似于国际规划竞赛中使用的领域生成一系列实例,以两种不同的模式(自主和启发式)评估LLMs。
效果:研究发现,LLMs自主生成可执行计划的能力相当有限,最好的模型(GPT-4)在所有领域的平均成功率约为12%。然而,启发式模式下的结果更具前景。在该模式下,我们证明LLM生成的计划可以改善基础健全规划器的搜索过程,并额外表明外部验证器可以帮助提供关于生成计划的反馈并反向提示LLM进行更好的计划生成。
Plug-and-Play Stability for Intracortical Brain-Computer Interfaces: A One-Year Demonstration of Seamless Brain-to-Text Communication
Chaofei Fan Nick Hahn Foram Kamdar Donald Avansino Guy H Wilson Leigh Hochberg Krishna V. Shenoy Jaimie M. Henderson Francis R Willett
研究问题:如何实现大脑皮层脑机接口(iBCIs)的长期稳定,以恢复患有神经障碍如肌萎缩侧索硬化症(ALS)的人的快速交流。
动机:为了保持高性能,iBCIs通常需要频繁重新校准以对抗数天来累积的神经记录变化,这要求iBCI用户停止使用并参与监督数据收集,使得iBCI系统难以使用。
方法:本文提出了一种无需中断用户就能自我校准通信iBCIs的方法。该方法利用大型语言模型(LMs)自动纠正iBCI输出的错误。自我校准过程使用这些纠正后的输出("伪标签")不断在线更新iBCI解码器。
效果:在超过一年(403天)的时间里,我们用一个临床试验参与者评估了我们的持续在线伪标签再校准(CORP)框架。CORP在一个在线手写iBCI任务中实现了93.84%的稳定解码精度,显著优于其他基线方法。这是涉及人类参与者的最长时间的iBCI稳定性演示。我们的研究结果为高性能即插即用通信iBCIs的长期稳定提供了首次证据,解决了iBCIs临床转化的主要障碍。
Can Language Models Solve Graph Problems in Natural Language?
Heng Wang Shangbin Feng Tianxing He Zhaoxuan Tan Xiaochuang Han Yulia Tsvetkov
研究问题:大型语言模型是否能够明确处理文本描述的图形和结构,将它们映射到基础的概念空间,并进行结构化操作。
动机:尽管大型语言模型在具有结构含义的任务上取得了进展,但它们是否能明确处理文本描述的图形和结构,并将它们映射到基础的概念空间,进行结构化操作的问题仍然未被充分探索。
方法:提出自然语言图(NLGraph),这是一个以自然语言设计的基于图形问题的全面基准。NLGraph包含29,370个问题,涵盖了从简单任务如连通性和最短路径到复杂任务如最大流和模拟图神经网络等八种图形推理任务。
效果:评估了大型语言模型(GPT-3/4)在NLGraph基准上的不同提示方法,发现1) 语言模型确实表现出初步的图形推理能力,2) 高级提示和上下文学习的好处在更复杂的图形问题上减少,而3) 面对图中和问题设置中的虚假相关性,大型语言模型也显得相当脆弱。然后提出了构建图形提示和算法提示两种基于指令的方法来提高大型语言模型解决自然语言图形问题的能力。这两种方法使大型语言模型在NLGraph上的表现提高了3.07%至16.85%,但在我们设置中如何解决最复杂的图形推理任务仍然是开放的研究问题。
Supervised Pretraining Can Learn In-Context Reinforcement Learning
Jonathan Lee Annie Xie Aldo Pacchiano Yash Chandak Chelsea Finn Ofir Nachum Emma Brunskill
研究问题:本文旨在研究大型变压器模型在决策问题中的上下文学习能力,特别是在强化学习(RL)中。
动机:尽管大型变压器模型在各种任务上表现出色,但它们在未明确训练的任务上的上下文学习能力尚未得到充分研究。
方法:本文引入并研究了决策预训练变压器(DPT),这是一种监督预训练方法,其中变压器根据查询状态和来自各种任务的交互数据集预测最优行动。
效果:实验结果表明,训练后的变压器可以在上下文中解决一系列RL问题,展示出在线探索和离线保守的特性,尽管它并未被明确地训练来这样做。此外,该模型还能推广到预训练分布之外的任务,并能自动适应未知结构。理论上,我们证明了DPT可以被视为贝叶斯后验采样的有效实现,这是一种被证明是样本高效的RL算法。
Faith and Fate: Limits of Transformers on Compositionality
Nouha Dziri Ximing Lu Melanie Sclar Xiang Lorraine Li Liwei Jiang Bill Yuchen Lin Sean Welleck Peter West Chandra Bhagavatula Ronan Le Bras Jena D. Hwang Soumya Sanyal Xiang Ren Allyson Ettinger Zaid Harchaoui Yejin Choi
研究问题:Transformer大型语言模型在复杂的多步推理任务中表现出色,但在一些简单问题上却出现错误,这是否暗示了其存在更深层次的限制?
动机:为了揭示Transformer大型语言模型的局限性,我们对其在三个具有代表性的复合任务上的表现进行了研究。
方法:我们选取了乘法运算、逻辑网格谜题和经典的动态规划问题这三个需要分解为子步骤并综合得出精确答案的任务进行研究。我们将复合任务形式化为计算图,系统地量化了任务的复杂程度,并将推理步骤分解为中间过程。
效果:我们的实证研究发现,Transformer大型语言模型解决复合任务的方式是将多步复合推理简化为线性化的子图匹配,而并非必然发展出系统性的问题解决技巧。此外,我们还提供了关于抽象多步推理问题的理论研究,强调了自回归生成的性能会随着任务复杂度的增加而迅速下降。
Effective Human-AI Teams via Learned Natural Language Rules and Onboarding
Hussein Mozannar Jimin J Lee Dennis Wei Prasanna Sattigeri Subhro Das David Sontag
研究问题:如何让人类知道何时依赖AI代理,何时与AI代理协作,或忽视其建议。
动机:提出一种基于数据区域和自然语言描述的规则学习方法,以说明人类应如何与AI协作。
方法:通过新颖的区域发现算法在数据中寻找局部区域作为嵌入空间中的邻域来纠正人类的先验知识,然后使用大型语言模型迭代并对比地描述每个区域。
效果:通过用户研究在对象检测和问答任务上,证明该方法可以使人类-AI团队更准确。同时,还对区域发现和描述算法进行了单独评估。
Paxion: Patching Action Knowledge in Video-Language Foundation Models
Zhenhailong Wang Ansel Blume Sha Li Genglin Liu Jaemin Cho Zineng Tang Mohit Bansal Heng Ji
研究问题:现有的视频-语言模型在动作知识理解方面存在缺陷,主要依赖对象识别能力作为理解动作的捷径。
动机:为了解决这一问题,我们提出了一种新的框架Paxion和一个新的目标函数Discriminative Video Dynamics Modeling (DVDM)。
方法:Paxion框架利用知识补丁网络编码新的动作知识,并通过知识融合组件将补丁整合到已冻结的视频-语言模型中,同时不损害其现有功能。我们还引入了DVDM目标来训练知识补丁网络,以弥补广泛使用的Video-Text Contrastive (VTC)损失在学习动作知识方面的局限性。
效果:实验结果显示,Paxion和DVDM一起有效地填补了动作知识理解的差距(从50%提高到80%),同时在广泛的对象和动作为中心的下游任务上保持或提高了性能。
Bypassing spike sorting: Density-based decoding using spike localization from dense multielectrode probes
Yizi Zhang Tianxiao He Julien Boussard Charlie Windolf Olivier Winter Eric M. Trautmann Noam Roth Hailey Barrel Mark M Churchland Nick Steinmetz Erdem Varol Cole Lincoln Hurwitz Liam Paninski
研究问题:如何更准确地将动作电位分配给单个神经元,以提高神经解码在脑机接口(BCI)中的应用。
动机:目前的尖峰分选算法可能不准确,并且没有正确模拟尖峰分配的不确定性,因此丢弃了可能提高解码性能的信息。
方法:提出了一种无需尖峰分选的解码方法,该方法直接使用混合高斯分布(MoG)对提取的尖峰特征的分布进行建模,以表示尖峰分配的不确定性,而无需显式解决尖峰聚类问题。
效果:通过大量的动物和探针几何记录进行基准测试,证明所提出的解码器可以持续优于基于阈值(即多单元活动)和尖峰分选的当前方法。
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
Lijun Yu Yong Cheng Zhiruo Wang Vivek Kumar Wolfgang Macherey Yanping Huang David A Ross Irfan Essa Yonatan Bisk Ming-Hsuan Yang Kevin Patrick Murphy Alexander G Hauptmann Lu Jiang
研究问题:如何使预训练语言模型(PLMs)执行涉及非语言模态(如图像或视频)的理解与生成任务。
动机:目前的预训练语言模型在处理涉及非语言模态的任务时,往往需要重新进行训练,这增加了计算成本和时间。
方法:提出语义金字塔自动编码器(SPAE),将原始像素和从PLM的词汇表中提取的可解释词条(或单词)进行转换。这种方法能够有效地将视觉内容转化为语言,使PLM能够执行各种多模态任务。
效果:通过在冻结的PaLM 2和GPT 3.5上进行上下文学习实验,验证了该方法在理解图像和生成图像内容方面的有效性。这是第一次成功地让一个冻结的PLM在相同的设置下,同时超过最先进的性能,在图像理解任务上提高了25%以上。
Thought Cloning: Learning to Think while Acting by Imitating Human Thinking
Shengran Hu Jeff Clune
研究问题:强化学习代理在人类思维能力上的表现远不及人类,作者认为其中一个原因是它们缺乏语言思考的益处。
动机:作者提出一种新的模仿学习框架——"思维克隆",旨在不仅复制人类演示者的行为,也复制他们在执行这些行为时的思考方式,以提升AI代理的能力。
方法:通过合成生成的思维和行动数据进行实验,结果显示,思维克隆比行为克隆学习得更快,其性能优势随着测试任务越偏离分布越大而增强,显示出其更好地处理新情况的能力。
效果:通过训练AI代理如何思考以及如何表现,思维克隆创造了更安全、更强大的代理。同时,由于我们可以观察到代理的思考过程,因此可以更容易地诊断问题、纠正错误或防止不安全的行为。
4M: Massively Multimodal Masked Modeling
David Mizrahi Roman Bachmann Oguzhan Fatih Kar Teresa Yeo Mingfei Gao Afshin Dehghan Amir Zamir
研究问题:本文旨在开发一种多模态训练方案,以实现计算机视觉任务的通用性和可扩展性。
动机:目前的机器学习模型在视觉领域通常高度专业化且仅限于单个模态和任务。相比之下,最近的大规模语言模型表现出广泛的能力,暗示了在计算机视觉中也存在类似的多功能模型的可能性。
方法:本文提出了一种名为4M的多模态训练方案,它包括使用跨多种输入/输出模态(包括文本、图像、几何和语义模态以及神经网络特征图)的屏蔽建模目标来训练一个统一的Transformer编码器-解码器。4M通过将所有模态映射到离散的标记并对其上的一小部分随机标记进行多模态屏蔽建模来实现可扩展性。
效果:实验结果表明,4M能够训练出具备多种关键能力的模型:(1)它们可以立即执行一系列视觉任务;(2)当针对未见过的任务或新的输入模态进行微调时,它们表现出色;(3)它们可以作为生成模型运行,能够根据任意模态进行条件化,从而具备灵活多样的多模态编辑能力。
Computing a human-like reaction time metric from stable recurrent vision models
Lore Goetschalckx Lakshmi Narasimhan Govindarajan Alekh Karkada Ashok Aarit Ahuja David Sheinberg Thomas Serre
研究问题:如何构建一个可以从刺激中计算、任务优化的模型来描述人类视觉决策的时间维度。
动机:随着深度神经网络在视觉计算模型中的广泛应用,人们开始尝试将这些模型与人类的认知过程进行对齐,其中一个重要的研究方向就是反应时间的建模。
方法:本文提出了一种基于主题逻辑理论的新颖指标,用于总结循环视觉模型中的证据积累情况,从而构建出能够描述人类反应时间模式的计算模型。
效果:通过在四个不同的视觉决策任务(包括知觉分组、心理模拟和场景分类)上的应用,验证了该模型能够有效地匹配人类的反应时间模式,为进一步探索模型和人类视觉策略的时间对齐性提供了可能。
3D-LLM: Injecting the 3D World into Large Language Models
Yining Hong Haoyu Zhen Peihao Chen Shuhong Zheng Yilun Du Zhenfang Chen Chuang Gan
研究问题:如何将3D世界融入大型语言模型,以处理更丰富的概念,如空间关系、功能、物理、布局等。
动机:现有的大型语言模型和视觉-语言模型虽然在多个任务上表现出色,但并未基于三维物理世界进行训练,无法处理更复杂的3D相关任务。
方法:提出一种新的3D-LLMs,可以将3D点云及其特征作为输入,执行一系列3D相关任务,包括描述、密集描述、3D问答、任务分解、3D定位、3D辅助对话、导航等。通过设计三种提示机制收集超过30万条3D语言数据。利用从渲染的多视图图像中获取的3D特征提取器和2D VLMs作为基础来训练3D-LLMs。引入3D定位机制使3D-LLMs能更好地捕获3D空间信息。
效果:在ScanQA数据集上的实验表明,该模型比最先进的基线模型有大幅度的性能提升(例如BLEU-1分数比最先进的分数高出9%)。在自行构建的3D描述、任务合成和3D辅助对话数据集上的实验也表明,该模型优于2D VLMs。定性示例还显示,该模型可以执行现有LLMs和VLMs范围之外的任务。该模型和数据集将公开发布。
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
Zhiqing Sun Yikang Shen Qinhong Zhou Hongxin Zhang Zhenfang Chen David Daniel Cox Yiming Yang Chuang Gan
研究问题:如何减少对人工监督的依赖,提高AI助手的效用、道德性和可靠性。
动机:目前的AI助手主要依靠人类注释的监督微调(SFT)和来自人类反馈的强化学习(RLHF),但这种方法的成本高且存在质量、可靠性、多样性、自一致性和不受欢迎的偏见等问题。
方法:提出一种名为SELF-ALIGN的新方法,结合原则驱动的推理和大型语言模型(LLMs)的生成能力,实现AI代理的自我对齐,最小化人工监督。
效果:将SELF-ALIGN应用于LLaMA-65b基础语言模型,开发了一个名为Dromedary的AI助手。在不到300行的人工注释下(包括<200个种子提示,16个通用原则和5个用于上下文学习的示例),Dromedary在各种设置的基准数据集上显著超越了几个最先进的AI系统,包括Text-Davinci-003和Alpaca。
Birth of a Transformer: A Memory Viewpoint
Alberto Bietti Vivien Cabannes Diane Bouchacourt Herve Jegou Leon Bottou
研究问题:本研究旨在理解大型基于转换器的模型的内部机制,以增强其可靠性。
动机:随着这些模型的广泛应用,对其内部机制的理解需求日益增长。
方法:通过考虑一个合成设置,其中标记由全局或上下文特定的二元分布生成,研究转换器如何平衡这两种类型的知识。通过对简化的两层转换器的训练过程进行细致的实证分析,说明了全局二元组的快速学习和上下文二元组的"归纳头"机制的较慢发展。
效果:我们强调了权重矩阵作为关联记忆的作用,提供了关于梯度如何在训练期间实现其学习的理论知识,并研究了数据分布属性的作用。
AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback
Yann Dubois Xuechen Li Rohan Taori Tianyi Zhang Ishaan Gulrajani Jimmy Ba Carlos Guestrin Percy Liang Tatsunori Hashimoto
研究问题:大型语言模型(LLMs)如何更好地遵循用户指令,其训练过程复杂且理解不足。
动机:复制和理解这一指令遵循过程面临三大挑战:数据收集成本高、缺乏可信赖的评估方法以及缺乏参考实现。
方法:开发了一个名为AlpacaFarm的模拟器,用于在低成本下进行基于反馈的学习研究和发展。设计了基于LLM的人类反馈模拟器,比众包工人便宜45倍,并且与人类高度一致。确定了代表真实世界指令的评估数据集并提出了自动评估程序。为几种从配对反馈中学习的方法(PPO、最佳n次、专家迭代等)提供了参考实现。
效果:通过在AlpacaFarm上训练和评估11个模型,发现这些模型的排名与在人类数据上训练的模型排名相匹配。作为AlpacaFarm端到端验证的一部分,发现使用奖励模型的方法可以显著优于有监督微调,而我们的参考PPO实现相对于Davinci003的胜率提高了+10%。
In-Context Learning Unlocked for Diffusion Models
Zhendong Wang Yifan Jiang Yadong Lu yelong shen Pengcheng He Weizhu Chen Zhangyang Wang Mingyuan Zhou
研究问题:本文旨在开发一种名为“Prompt Diffusion”的框架,以实现基于扩散的生成模型中的上下文学习。
动机:现有的扩散基生成模型无法进行上下文学习,需要通过新的文本引导来执行新任务。
方法:提出了一个视觉语言提示,可以模拟广泛的视觉语言任务,并设计了一个接受此提示作为输入的扩散模型。该模型在六个不同任务上使用这些提示进行联合训练。
效果:Prompt Diffusion模型成为首个能够进行上下文学习的扩散基视觉语言基础模型。它在已训练的任务上表现出高质量的上下文生成,并能有效地利用各自的提示推广到新的、未见过视觉任务。此外,该模型还显示出引人注目的文本引导图像编辑结果。
Bootstrapping Vision-Language Learning with Decoupled Language Pre-training
Yiren Jian Chongyang Gao Soroush Vosoughi
研究问题:如何优化大型语言模型在资源密集型视觉-语言预训练中的应用。
动机:目前的方法主要关注确定与文本最相关的视觉特征,而本研究专注于语言部分,即确定与视觉特征最佳对齐的理想提示。
方法:提出Prompt-Transformer(P-Former)模型,该模型只使用语言学数据进行训练,无需图像-文本配对,可以预测出理想的提示。
效果:实验表明,该方法显著提高了强大的图像到文本基线(BLIP-2)的性能,有效缩小了使用4M或129M图像-文本对训练的模型之间的性能差距。此外,该方法具有良好的模态无关性和结构设计的灵活性,已在视频学习任务中得到验证。
Counterfactual Memorization in Neural Language Models
Chiyuan Zhang Daphne Ippolito Katherine Lee Matthew Jagielski Florian Tramèr Nicholas Carlini
研究问题:现代神经网络语言模型在各种NLP任务中可能会记住训练数据中的敏感信息,理解研究问题:现代神经网络语言模型在各种NLP任务中可能会记住训练数据中的敏感信息,理解这种记忆现象对于实际应用和学习理论都很重要。
动机:先前对语言模型记忆的研究中的一个开放性问题是,如何过滤掉“常见”的记忆。大多数记忆标准与训练集中的出现次数高度相关,捕捉到的是熟悉的短语、公共知识、模板文本或其他重复数据。
方法:我们提出了一种反事实记忆的概念,描述了如果在某次训练中省略了特定的文档,模型的预测会发生什么变化。我们在标准的文本数据集中找到并研究了反事实记忆的训练样本。
效果:我们估计了每个记忆训练样本对验证集和生成文本的影响,展示了如何在测试时间提供直接的证据来证明记忆的来源。
PRODIGY: Enabling In-context Learning Over Graphs
Qian Huang Hongyu Ren Peng Chen Gregor Kržmanc Daniel Zeng Percy Liang Jure Leskovec
研究问题:如何实现在图结构上进行上下文学习。
动机:尽管大型语言模型已经展示了这种能力,但在图结构上如何进行上下文学习尚未探索。
方法:开发了首个支持在图结构上进行上下文学习的预训练框架PRODIGY,该框架通过将提示示例和查询连接起来的新“提示图”表示形式来形式化图上的上下文学习。然后提出了一个基于提示图的图神经网络架构和相应的一系列上下文预训练目标。
效果:实验证明,使用PRODIGY,预训练模型可以直接通过上下文学习在未见过图上执行新的下游分类任务。该方法在所有设置中的平均上下文学习性能比对比性预训练基线的硬编码适应提高了18%,并且在有限的数据上进行标准微调时,平均上下文学习性能提高了33%。
Neural Foundations of Mental Simulation: Future Prediction of Latent Representations on Dynamic Scenes
Aran Nayebi Rishi Rajalingham Mehrdad Jazayeri Guangyu Robert Yang
研究问题:人类和动物如何通过理解物理世界来预测物体和事件的动态轨迹、可能的未来状态,并据此进行计划和预期结果?
动机:目前尚不清楚这些计算背后的神经机制。
方法:结合目标驱动的建模方法和高密度神经生理数据以及高吞吐量的人类行为读数,直接解决这个问题。具体来说,构建并评估几类感官认知网络,以预测丰富、具有生态学意义的环境的未来发展状态。
效果:我们发现“规模并不是你所需要的全部”,并且许多最先进的机器学习模型在我们的神经和行为基准测试中表现不佳。实际上,只有一类模型整体上很好地匹配了这些数据。我们发现,目前最佳的神经网络响应预测模型是那些在预训练的基础模型的潜在空间中,以自监督的方式优化动态场景进行未来环境状态预测的训练模型。这些模型还能够接近神经元预测视觉上隐藏的环境状态变量的能力,尽管它们并未被明确地训练来做这件事。最后,我们发现并非所有的基础模型潜在空间都是平等的。值得注意的是,在视频基础模型的潜在空间中进行未来预测,且优化以支持各种自我中心的感测运动任务的模型,能够合理地匹配人类的行为误差模式和所有我们能够测试的环境场景中的神经动力学。总的来说,这些发现表明,灵长类动物的心理模拟的神经机制和行为具有很强的归纳偏置,因此迄今为止最符合在可重用的视觉表示上进行未来预测的优化,这对广义上的具身人工智能更有用。
Optimizing Prompts for Text-to-Image Generation
Yaru Hao Zewen Chi Li Dong Furu Wei
研究问题:如何设计有效的提示来引导文本到图像模型生成惊人的图像?
动机:现有的有效提示通常是针对特定模型的,并且与用户输入不匹配。
方法:提出一个通用框架——提示适应,自动将原始用户输入适应为模型偏好的提示。具体来说,首先使用预训练的语言模型在手动设计的提示集合上进行有监督的微调。然后使用强化学习探索更好的提示。定义一个奖励函数,鼓励策略生成更具美感的图像,同时保留原始用户意图。
效果:在Stable Diffusion上的实验结果表明,我们的方法在自动指标和人类偏好评级方面优于手动提示工程。此外,强化学习进一步提高了性能,尤其是在非领域特定的提示上。
Selective Amnesia: A Continual Learning Approach to Forgetting in Deep Generative Models
Alvin Heng Harold Soh
研究问题:如何防止大型文本到图像模型被误用来生成有害、误导和不适当的内容。
动机:由于大型文本到图像模型的广泛使用,人们越来越担心这些模型可能被误用。
方法:研究人员提出了一种受持续学习启发的技术,可以在预训练的深度生成模型中选择性地忘记概念,这种方法被称为“选择性遗忘”。
效果:实验表明,这种方法可以在不同的模型中引发对各种概念的遗忘,包括标准数据集中的所有类别,以及文本到图像模型中的名人和裸露提示。
Exposing Attention Glitches with Flip-Flop Language Modeling
Bingbin Liu Jordan T. Ash Surbhi Goel Akshay Krishnamurthy Cyril Zhang
研究问题:大型语言模型为何有时会输出事实错误并表现出错误的推理?
动机:为了解决这一基本未解决的问题,本工作识别并分析了注意力失误现象,即Transformer架构的归纳偏见间歇性地无法捕捉到稳健的推理。
方法:引入“翻来覆去的语言建模”(FFLM),这是一种用于探测神经语言模型外推行为的合成基准的参数族。这个简单的生成任务要求模型在忽略中间的标记的情况下复制二进制符号的长范围依赖关系。
效果:我们发现Transformer FFLMs遭受了一连串偶发性的推理错误,其中一些我们可以通过各种正则化技术消除。我们的初步机制分析表明,为什么剩余的错误可能非常难以诊断和解决。我们假设注意力失误是自然LLMs中封闭领域幻觉的原因之一。
Alignment with human representations supports robust few-shot learning
Ilia Sucholutsky Thomas L. Griffiths
研究问题:我们是否应该关心AI系统对世界的理解是否与人类相似?
动机:我们进行了信息理论分析,并发现AI系统对人类理解的相似度和其在少量学习任务上的表现之间存在U型关系。
方法:我们对491个计算机视觉模型的性能进行了分析,以确认这一预测。
效果:我们的结果显示,高度相似的模型对自然对抗攻击和领域转移更具鲁棒性。我们的研究结果表明,人类的理解通常是模型有效利用有限数据、保持鲁棒性和良好泛化的必要但不充分条件。
ProPILE: Probing Privacy Leakage in Large Language Models
Siwon Kim Sangdoo Yun Hwaran Lee Martin Gubri Sungroh Yoon Seong Joon Oh
研究问题:大型语言模型(LLMs)的快速发展和广泛应用引发了对个人身份信息(PII)泄露的严重关注。
动机:这些模型通常在大量的网络收集数据上进行训练,可能会无意中包含敏感的个人数据。
方法:本文提出了一种名为ProPILE的新型探测工具,旨在让数据主体或PII所有者了解基于LLM的服务中可能存在的PII泄露。
效果:实验结果表明,ProPILE可以有效地评估其自身的PII泄露程度,为数据主体提供了对其自身数据的意识与控制能力。
Model Spider: Learning to Rank Pre-Trained Models Efficiently
Yi-Kai Zhang Ting-Ji Huang Yao-Xiang Ding De-Chuan Zhan Han-Jia Ye
研究问题:如何从模型库中选择最适合目标任务的预训练模型。
动机:由于存在大量来自不同领域的异构预训练模型,因此有效地选择最合适的模型是具有挑战性的,因为对所有预训练模型进行前向或后向传递都需要花费大量时间。
方法:本文提出了Model Spider,该方法通过将预训练模型和任务的特性总结为向量来进行标记化,以实现高效的预训练模型选择。通过利用预训练模型在单独的训练任务集上的性能,Model Spider学习构建表示并测量模型-任务对之间的适应度分数。将相关预训练模型排名高于其他的能力可以推广到新任务上。
效果:Model Spider在包括视觉模型和大型语言模型在内的各种模型库中表现出良好的性能。代码可在https://github.com/zhangyikaii/Model-Spider获取。
DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
Sang Michael Xie Hieu Pham Xuanyi Dong Nan Du Hanxiao Liu Yifeng Lu Percy Liang Quoc V Le Tengyu Ma Adams Wei Yu
研究问题:预训练数据领域的混合比例对语言模型性能有很大影响。
动机:提出了一种优化预训练数据领域权重的方法,以提高大型语言模型的训练效率和性能。
方法:通过在领域上使用组分布鲁棒优化(Group DRO)训练小型代理模型来生成领域权重,然后根据这些权重重新采样数据集并训练大型全尺寸模型。
效果:实验结果表明,该方法在所有领域上都提高了困惑度,并在较少的训练步骤下达到了基线精度。
Text-to-Image Diffusion Models are Zero Shot Classifiers
Kevin Clark Priyank Jaini
研究问题:扩散模型的表示学习能力尚未完全理解,其在下游任务中的应用也未得到充分探索。
动机:扩散模型具有优秀的生成能力,可以学习图像-文本数据的有信息量表示,但其学习到的知识内容尚不清楚。
方法:提出一种评估扩散模型的方法,将其作为零样本分类器。主要思想是利用扩散模型根据标签的文本描述对噪声图像进行去噪的能力作为该标签可能性的代理。
效果:该方法在Stable Diffusion和Imagen上进行了应用,发现它们在广泛的零样本图像分类数据集上与CLIP具有竞争力。此外,它们在形状/纹理偏见测试上取得了最先进的结果,并能成功执行属性绑定,而CLIP则无法做到。因此,作者认为应该探索将生成预训练作为视觉和视觉语言问题的引人注目的替代方案。
One Fits All: Power General Time Series Analysis by Pretrained LM
Tian Zhou Peisong Niu Xue Wang Liang Sun Rong Jin
研究问题:尽管预训练模型在自然语言处理和计算机视觉领域取得了巨大成功,但在时间序列分析领域的进展有限。
动机:时间序列分析任务需要专门设计的方法,且缺乏大量用于训练的数据,限制了预训练模型在此领域的发展。
方法:利用已经在数十亿个标记上预训练的语言或图像模型进行时间序列分析,不改变预训练模型中的自注意力和前馈层。
效果:实验结果表明,预训练的语言或图像模型可以在所有主要的时间序列分析任务中达到相当或领先的性能。同时,理论和实证发现,自注意力模块的行为类似于主成分分析(PCA),这有助于理解预训练的转换器如何弥合领域差距,是理解预训练转换器普适性的关键一步。
Kiki or Bouba? Sound Symbolism in Vision-and-Language Models
Morris Alper Hadar Averbuch-Elor
研究问题:本文旨在探讨声音象征主义是否反映在视觉和语言模型中,如CLIP和Stable Diffusion。
动机:尽管人类语言中的声音和意义之间的映射被认为是大致任意的,但认知科学研究已经表明,在语言和人口群体之间存在特定的音义相关性,这种现象被称为声音象征主义。
方法:通过零射知识探测来研究这些模型的内在知识,我们发现有强烈证据表明它们确实表现出这种模式,与心理语言学中著名的kiki-bouba效应相吻合。
效果:我们的研究提供了一种新的方法来证明声音象征主义并理解其性质,使用计算工具。我们的代码将公开发布。
Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models
Sivan Doveh Assaf Arbelle Sivan Harary Roei Herzig Donghyun Kim Paola Cascante-Bonilla Amit Alfassy Rameswar Panda Raja Giryes Rogerio Feris Shimon Ullman Leonid Karlinsky
研究问题:本文旨在解决视觉和语言(VL)模型在对齐图像和文本表示空间时存在的“对象偏见”问题,即其表示主要像“名词袋”,忽视了或缩小了文本/图像中描述的对象的属性、关系和状态。
动机:尽管最近的文献中提出了一些解决这些“组合推理”问题的尝试,但问题仍然远未得到解决。
方法:本文揭示了影响VL模型组合推理性能的两个因素,这两个因素是用于微调(或预训练)VL模型的配对VL数据集的属性:(i)文本的标题质量,或换句话说是“图像对齐”;(ii)标题的“密度”,即提到图像上出现的所有细节。并提出了一种在标准配对VL数据集(CC3M)上自动处理这些因素的微调方法。
效果:将该方法应用于CLIP,实验结果表明,其组合推理性能比基础模型提高了约27%,比最强的基线提高了约20%,平均提高了6.7%。
Inference-Time Intervention: Eliciting Truthful Answers from a Language Model
Kenneth Li Oam Patel Fernanda Viégas Hanspeter Pfister Martin Wattenberg
研究问题:如何提高大型语言模型的"真实性"。
动机:现有的大型语言模型在生成内容时可能会产生错误,需要一种方法来提高其真实性。
方法:提出推理时间干预(ITI)技术,通过在推理过程中改变模型激活,按照一组学习的方向在有限的关注头之间进行移动,从而显著提高LLaMA模型在TruthfulQA基准上的性能。
效果:实验结果表明,ITI可以显著提高大型语言模型的真实性,同时保持其帮助性,且该方法计算效率高,数据需求少。
Lexinvariant Language Models
Qian Huang Eric Zelikman Sarah Li Chen Yuhuai Wu Gregory Valiant Percy Liang
研究问题:语言模型是否可以在没有固定词元嵌入的情况下表现良好?
动机:目前的预训练语言模型主要依赖于词元嵌入,但词元的意义也可以通过其在长上下文中的角色来确定。本文探讨了是否可以构建一种不依赖于词元嵌入的语言模型。
方法:通过随机高斯向量对词元进行编码,使每个词元在每个序列中映射到相同的表示,但在不同序列中映射到不同的表示,从而构建了一种与词元无关的语言模型。
效果:实验结果表明,这种语言模型在给定足够长的上下文时,可以达到与标准语言模型相当的困惑度。此外,它还能实现贝叶斯上下文解密,并在合成上下文推理任务上平均有4倍的准确率提升。
Parsel🐍: Algorithmic Reasoning with Language Models by Composing Decompositions
Eric Zelikman Qian Huang Gabriel Poesia Noah Goodman Nick Haber
研究问题:大型语言模型在复杂的多步推理任务,如生成复杂程序方面存在困难。
动机:人类在进行这类任务时,通常会从高级算法设计开始,逐步实现每个部分。因此,研究人员提出了一个名为Parsel的框架,以帮助LLM自动实现和验证复杂算法。
方法:Parsel首先将算法任务自动分解为分层的自然语言功能描述,然后通过测试搜索可能的功能实现组合。
效果:实验结果显示,使用Parsel,LLM在APPS数据集上解决了更多竞赛级别的问题,其通过率比直接采样AlphaCode和Codex的结果高出75%以上,而且使用的样本预算通常更小。此外,通过自动生成的测试,发现Parsel可以将HumanEval上的state-of-the-art pass@1性能从67%提高到85%。最后,研究发现使用Parsel生成的机器人计划被认为准确的可能性是直接生成计划的两倍以上。
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought
Yao Mu Qinglong Zhang Mengkang Hu Wenhai Wang Mingyu Ding Jun Jin Bin Wang Jifeng Dai Yu Qiao Ping Luo
研究问题:如何让机器人通过理解和执行多模态信息来完成长期任务?
动机:现有的机器人技术缺乏对多模态信息的理解与执行能力。
方法:提出了EmbodiedGPT,一种用于增强AI的端到端多模态基础模型,通过大规模规划数据集EgoCOT和高效的训练方法,使机器人具备多模态理解和执行能力。
效果:实验证明,EmbodiedGPT在规划、控制、视觉描述和视觉问答等任务上表现出色,尤其在控制任务上,其成功率比使用Ego4D数据集进行微调的BLIP-2基线提高了1.6倍和1.3倍。
DeWave: Discrete Encoding of EEG Waves for EEG to Text Translation
Yiqun Duan Charles Zhou Zhen Wang Yu-Kai Wang Chin-teng Lin
研究问题:如何将大脑动态转化为自然语言,以实现脑机接口(BCIs)的应用。
动机:随着大型语言模型的快速发展,如ChatGPT,弥补大脑和语言之间的鸿沟的需求日益迫切。然而,现有的方法需要通过眼球追踪定位或事件标记来分割大脑动态为词级特征,这可能限制了这些系统的实际应用。
方法:本文提出了一种新的框架DeWave,该框架将离散编码序列整合到开放式的EEG到文本翻译任务中。DeWave使用量化变分编码器生成离散编码,并将其与预训练的语言模型对齐。这种离散编码表示有两个优点:1)通过引入文本-EEG对比对齐训练,缓解了眼球定位和口语词汇顺序不匹配的问题;2)通过不变的离散编码,最小化了个体差异对EEG波的干扰。
效果:在ZuCo数据集上,DeWave模型的表现超过了之前的基线(分别提高了3.06%和6.34%),达到了41.35 BLEU-1和33.71 Rouge-F。此外,这是首次实现了无需词级顺序标记(如眼球定位)即可翻译整个EEG信号周期的工作,在ZuCo数据集上分别达到了20.5 BLEU-1和29.5 Rouge-1。
Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer
Bowen Tan Yun Zhu Lijuan Liu Eric Xing Zhiting Hu Jindong Chen
研究问题:大型语言模型虽然在多任务处理上表现出色,但需要大量的计算资源,训练和推理成本高且效率低,且难以适应复杂的下游应用。
动机:为了解决这些问题,本文提出了一种预训练的小模型Cappy,旨在提高大型语言模型的性能和效率。
方法:Cappy只有3.6亿个参数,可以独立进行分类任务,也可以作为大型语言模型的辅助组件,提升其性能。此外,Cappy可以在不需要微调大型语言模型或访问其参数的情况下,有效地整合下游监督。
效果:实验结果表明,Cappy在独立完成11个语言理解任务时,表现优于参数规模大几个数量级的大型语言模型。在复杂任务上,Cappy也能大幅提高先进的多任务大型语言模型FLAN-T5的性能。
Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task
Maya Okawa Ekdeep Singh Lubana Robert P. Dick Hidenori Tanaka
研究问题:现代生成模型在实际应用中需要具备组合能力,以生成和推理从未见过的训练分布中的全新样本。本研究旨在探究条件扩散模型在合成环境中的组合泛化能力,并分析其困难的原因。
动机:现有的视觉扩散模型表现出令人感兴趣的组合泛化能力,但其行为往往难以预测。为了理解这种行为背后的原因以及模型在组合时遇到困难的模式,本研究进行了一项受控实验。
方法:通过改变训练数据的属性,并在合成环境中测量模型生成超出分布样本的能力,对条件扩散模型的组合泛化进行研究。
效果:(i)数据的生成过程的结构决定了能力和组合能力的出现顺序;(ii)学习单个概念对组合任务的性能有影响,可以解释突然的涌现;(iii)在相关性下学习和组合能力是困难的。
Human-in-the-Loop Optimization for Deep Stimulus Encoding in Visual Prostheses
Jacob Granley Tristan Fauvel Matthew Chalk Michael Beyeler
研究问题:如何优化神经假肢的刺激参数,以恢复失去的感官功能并增强人类能力。
动机:目前的神经假肢设备产生的刺激感觉往往不自然或失真,个体感知的差异和植入物的位置差异导致刺激反应存在显著变化,个性化刺激优化成为关键挑战。
方法:提出一种新的、实际可行的方法,通过训练深度编码器网络来产生任何个体患者的最佳刺激,然后利用优先贝叶斯优化策略学习新患者的最优个体特异性参数。
效果:该方法在最先进的视觉假肢模型上展示了可行性,能快速学习个性化的刺激编码器,显著提高恢复视力的质量,优于现有的编码策略。此外,该方法对患者反馈的噪声和基础前向模型的误规格具有鲁棒性。总的来说,深度学习和贝叶斯优化的结合可以显著改善佩戴视觉假肢的患者的感觉体验,可能为一系列神经假体技术提供可行的解决方案。
Training Chain-of-Thought via Latent-Variable Inference
Matthew Douglas Hoffman Du Phan david dohan Sholto Douglas Tuan Anh Le Aaron T Parisi Pavel Sountsov Charles Sutton Sharad Vikram Rif A. Saurous
研究问题:如何通过使用"chain-of-thought"提示,使大型语言模型更准确地解决问题?
动机:目前的预训练语言模型在处理特定任务时,可以通过监督微调来提高性能。然而,简单地结合CoT和监督微调需要对正确答案以及导致这些答案的详细推理过程进行监督,这是非常昂贵的。
方法:我们提出了一种微调策略,试图最大化生成正确答案的边际对数似然性,近似于平均所有可能的推理过程。核心挑战在于从正确答案的条件下的推理后验中采样;我们通过一种简单的MCMC期望最大化(EM)算法来解决,该算法受到自我教学推理器(STaR)、记忆唤醒、马尔可夫分数攀爬和持续对比分歧的启发。
效果:将我们的技术应用于GSM8K和BIG-Bench Hard的任务中,我们发现这种MCMC-EM微调技术通常比STaR或带有或不带有CoT的提示微调更能提高模型在保留示例上的准确性。
Language Models Meet World Models: Embodied Experiences Enhance Language Models
Jiannan Xiang Tianhua Tao Yi Gu Tianmin Shu Zirui Wang Zichao Yang Zhiting Hu
研究问题:大型语言模型在理解物体持久性或规划家庭活动等物理环境中的简单推理和计划方面表现不佳。
动机:由于大型语言模型仅在书面文本上进行训练,缺乏必要的具体知识和技能,因此存在上述限制。
方法:提出一种新的范式,通过使用世界模型(如VirtualHome)中的实体来获取多样化的具体知识,同时保留其通用的语言能力,以此对大型语言模型进行微调。
效果:实验表明,这种方法可以显著提高大型语言模型在18个下游任务上的表现,平均提高了64.28%。特别地,经过这种方法增强的小语言模型(1.3B、6B、13B)甚至能与更大的语言模型(如ChatGPT)相媲美。
Text Alignment Is An Efficient Unified Model for Massive NLP Tasks
Yuheng Zha Yichi Yang Ruichen Li Zhiting Hu
研究问题:如何构建一种更高效的模型,用于处理广泛的NLP任务,如文本蕴含、相似性、问答等。
动机:虽然大型语言模型在各种NLP任务上表现出色,但它们的通用性往往需要巨大的模型参数和有时次优的性能。
方法:本文提出了文本对齐作为处理包括文本蕴含、相似性、问答等多种关键任务的高效统一模型。给定一对文本,该模型测量它们之间的信息对齐程度。我们通过使用28个数据集的590万个示例对轻量级的RoBERTa进行微调来实现对齐模型。
效果:实验表明,尽管模型尺寸紧凑,但其效率高且性能强大:(1) 在上述多样化任务的20多个数据集上,该模型匹配或超过了FLAN-T5模型,后者的参数大约多出2倍或10倍;统一的单一模型也优于在单个数据集上进行微调的任务特定模型;(2) 当应用于评估23个数据集的语言生成的事实一致性时,我们的模型超过了各种基线,包括大得多的GPT-3.5(ChatGPT),有时甚至超过了GPT-4;(3) 这种轻量级模型也可以作为LLMs(如GPT-3.5)的附加组件,用于问答任务,通过识别无法回答的问题,将平均精确匹配(EM)得分提高了17.94,F1得分提高了15.05。
Self-supervised video pretraining yields robust and more human-aligned visual representations
Nikhil Parthasarathy S. M. Ali Eslami Joao Carreira Olivier J Henaff
研究问题:本文探讨了视频预训练是否能产生具有人类感知特征的视觉表示,如跨任务泛化、对扰动的鲁棒性和与人类判断的一致性。
动机:当前的视觉基础模型主要采用静态图像预训练,但在需要明确的时间理解的任务之外,这种模式与人类的感知方式存在不匹配。作者质疑这种不匹配,并探索视频预训练是否能产生更好的视觉表示。
方法:作者提出了一种新的视频策划方法,并开发了一个对比框架,从其中的复杂转换中学习。这个名为VITO的简单范式,用于从视频中提炼知识,其产生的通用表示在图像理解任务上远超过现有的视频预训练方法和图像预训练方法。
效果:VITO的表示比图像、视频和对抗性训练的表示更能抵抗自然和合成的变形。此外,VITO的预测结果与人类判断高度一致,超过了专门为此目的训练的模型。这些结果表明,视频预训练可能是学习统一、鲁棒和与人的认知一致的视觉世界表示的一种简单方法。
Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting
Miles Turpin Julian Michael Ethan Perez Samuel R. Bowman
研究问题:大型语言模型(LLMs)的链式推理解释是否真实反映了模型预测的原因?
动机:为了提高LLMs的透明度和安全性,研究人员试图通过链式推理解释来理解模型的预测过程。
方法:通过对模型输入添加偏见特征,如改变多选题选项的顺序,使答案总是"(A)",然后观察模型的解释是否会受到影响。
效果:研究发现,当模型偏向错误答案时,它们经常生成链式推理解释来合理化这些答案。在一系列任务中,准确率下降了高达36%。此外,模型的解释也会在不提及社会偏见影响的情况下,给出符合刻板印象的答案。这表明,链式推理解释可能是误导性的,增加了我们对LLMs的信任,但不能保证其安全性。因此,提高模型的透明度和可解释性需要通过改进链式推理的忠实度或采用替代方法来实现。
Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression
Allan Raventos Mansheej Paul Feng Chen Surya Ganguli
研究问题:预训练的转换器是否可以通过上下文学习解决与预训练期间看到的任务完全不同的新任务?
动机:探索预训练模型的上下文学习能力,即仅通过提示中的几个例子进行学习而无需更新任何权重。
方法:通过改变预训练数据集的任务多样性,对预训练转换器在线性回归任务上的表现进行实证研究。
效果:发现预训练任务多样性存在一个阈值,低于此阈值时,预训练转换器无法解决未见过的任务;高于此阈值时,转换器的性能显著优于贝叶斯估计器,能够优化解决全新的任务。同时,这项研究还探讨了正则化、模型容量和任务结构的影响,强调了任务多样性、数据和模型规模在上下文学习能力出现中的关键作用。
Not All Neuro-Symbolic Concepts Are Created Equal: Analysis and Mitigation of Reasoning Shortcuts
Emanuele Marconato Stefano Teso Antonio Vergari Andrea Passerini
研究问题:本文旨在解决神经符号预测模型中存在的推理捷径问题,即模型通过利用子研究问题:本文旨在解决神经符号预测模型中存在的推理捷径问题,即模型通过利用子符号输入中提取的高级概念来推断与一些先验知识一致的标签,但可能会产生意外的语义。
动机:推理捷径问题影响了神经符号预测模型的性能和可解释性,因此需要对其进行系统化的研究以找出其发生的原因并寻找可能的缓解策略。
方法:本文将推理捷径问题定义为学习目标的非预期最优解,并识别了其发生的四个关键条件。基于此,我们提出了几种自然缓解策略,并从理论和实证两方面分析了它们的有效性。
效果:分析表明,推理捷径问题难以处理,对现有神经符号解决方案的信任度和可解释性产生了质疑。
Grammar Prompting for Domain-Specific Language Generation with Large Language Models
Bailin Wang Zi Wang Xuezhi Wang Yuan Cao Rif A. Saurous Yoon Kim
研究问题:大型语言模型如何从少量示例中泛化到高度结构化的语言生成任务。
动机:现有的大型语言模型在面对高度结构化语言的生成任务时,如语义解析和特定领域的语言生成,仅通过少量示例进行学习往往效果不佳。
方法:提出“语法提示”方法,该方法允许大型语言模型在学习过程中使用外部知识和特定领域的约束,这些约束以巴科斯-诺尔形式(BNF)的语法来表达。在推理阶段,大型语言模型首先根据测试输入预测出BNF语法,然后根据该语法的规则生成输出。
效果:实验证明,语法提示可以使大型语言模型在一系列DSL生成任务上表现出色,包括语义解析、PDDL规划以及基于SMILES的分子生成等任务。
Multimodal Deep Learning Model Unveils Behavioral Dynamics of V1 Activity in Freely Moving Mice
Aiwen Xu Yuchen Hou Cris M. Niell Michael Beyeler
研究问题:尽管深度卷积神经网络在模拟猕猴视觉皮层方面取得了巨大成功,但它们在预测小鼠视觉皮层活动方面却面临困难,因为小鼠的视觉皮层活动强烈依赖于动物的行为状态。此外,大多数计算模型都专注于预测头部固定下呈现静态图像时产生的神经反应,这与现实世界中运动过程中产生的动态、连续的视觉刺激大不相同。因此,目前还不清楚自然视觉输入和不同的行为变量如何随时间整合以产生初级视觉皮层(V1)的反应。
动机:为了解决这个问题,我们引入了一种多模态循环神经网络,该网络将注视依赖的视觉输入与行为和时间动态相结合,以解释自由移动小鼠的初级视觉皮层活动。
方法:我们的模型通过整合注视相关的视觉输入、行为和时间动态来预测自由探索期间的V1活动,并展示了每个组件的重要性。
效果:实验结果表明,我们的模型在预测自由探索期间的V1活动方面达到了最先进的水平。通过使用最大激活刺激和显著性图进行分析,我们对皮层功能有了新的理解,包括小鼠V1中行为变量混合选择性的普遍性。总之,我们的模型为探索自由活动动物初级视觉皮层神经元背后的计算原理提供了一个全面的深度学习框架。
Are aligned neural networks adversarially aligned?
Nicholas Carlini Milad Nasr Christopher A. Choquette-Choo Matthew Jagielski Irena Gao Pang Wei Koh Daphne Ippolito Florian Tramèr Ludwig Schmidt
研究问题:大型语言模型在与恶意用户交互时,其对有害内容的抵制能力如何?
动机:现有的大型语言模型虽然被设计为“有益无害”,但恶意用户可以构造输入来规避这种对齐尝试。
方法:通过构建最坏情况的输入(对抗性示例),研究对抗性对齐,并探讨这些模型在与恶意用户交互时是否能保持对齐。
效果:发现现有的基于NLP的攻击不足以可靠地攻击对齐的文本模型。即使当前基于NLP的攻击失败,也可以通过暴力找到对抗性输入。此外,多模态模型容易受到攻击,即通过对抗性地修改输入图像,可以诱导模型执行任意非对齐行为。
HiBug: On Human-Interpretable Model Debug
Muxi Chen YU LI Qiang Xu
研究问题:如何发现和解释机器学习模型在特定数据子集上产生的系统性错误。
动机:现有的错误发现和解释方法需要大量的人工干预和标注,过程繁琐且错误覆盖率低。
方法:提出HiBug自动化模型调试框架,利用预训练的大型模型(如chatGPT)来识别与目标计算机视觉任务相关的可理解属性。通过预训练的视觉语言模型,我们能以人类可理解的方式快速找出表现不佳的数据子集的共同视觉属性。
效果:实验结果表明,HiBug框架能有效发现并解释模型的错误,提高模型的性能。
Joint Prompt Optimization of Stacked LLMs using Variational Inference
Alessandro Sordoni Xingdi Yuan Marc-Alexandre Côté Matheus Pereira Adam Trischler Ziang Xiao Arian Hosseini Friederike Niedtner Nicolas Le Roux
研究问题:如何利用大型语言模型(LLMs)进行深度语言网络(DLN)的优化,以提高多任务处理和自然语言理解能力。
动机:通过堆叠两个LLMs并让一个层的输出作为下一个层的输入,构建一个深度语言网络,以提升模型性能。
方法:首先对单层深度语言网络(DLN-1)进行有效提示优化,然后扩展到两层深度语言网络(DLN-2),其中需要学习两个提示。将第一层的输出视为潜在变量,需要通过推理来确定,而提示则作为生成分布的参数来学习。
效果:实验证明,DLN-1在多个推理和自然语言理解任务上表现出色。DLN-2的性能超过了单层网络,显示出有潜力达到与GPT-4相当的性能,即使网络中的每个LLM更小、功能更弱。
Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts
Eduard Tulchinskii Kristian Kuznetsov Kushnareva Laida Daniil Cherniavskii Sergey Nikolenko Evgeny Burnaev Serguei Barannikov Irina Piontkovskaya
研究问题:如何区分人类和AI生成的文本,特别是在AI生成内容的质量不断提高的情况下。
动机:随着AI生成内容的质量和数量的快速增长,区分人类和AI生成的文本变得越来越困难,这可能会对社会产生不良影响。
方法:提出了一种基于嵌入表示的平均内在维度的方法来区分人类和AI生成的文本。通过计算给定文本样本的嵌入表示的内在维度,发现自然语言中流畅文本的平均内在维度在7-9之间,而AI生成的文本的平均内在维度比人类生成的文本低约1.5。
效果:这种方法可以稳定地应用于不同的文本领域、生成模型和人类写作者的熟练程度水平,并在模型无关和跨领域情况下显著优于最先进的检测器。
Reflexion: language agents with verbal reinforcement learning
Noah Shinn Federico Cassano Ashwin Gopinath Karthik R Narasimhan Shunyu Yao
研究问题:如何让大型语言模型(LLMs)更有效地从试错中学习,而无需大量的训练样本和昂贵的模型微调。
动机:传统的强化学习方法需要大量的训练样本和昂贵的模型微调,这对于语言模型来说是一个挑战。
方法:提出了一种新的框架Reflexion,通过语言反馈来强化语言模型。具体来说,Reflexion模型会口头反映任务反馈信号,然后在一个事件记忆缓冲区中保留自己的反射文本,以引导后续的决策制定。
效果:Reflexion在各种任务(序列决策、编码、语言推理)上都取得了显著的改进。例如,在HumanEval编码基准测试上,Reflexion达到了91%的准确率,超过了之前最先进的GPT-4的80%。
Information Geometry of the Retinal Representation Manifold
Xuehao Ding Dongsoo Lee Joshua Brendan Melander George Sivulka Surya Ganguli Stephen Baccus
研究问题:大脑对视觉刺激的辨别能力受到视网膜表示的限制。
动机:以前的视觉辨别研究仅限于低维人造刺激或纯理论考虑,没有现实编码模型。
方法:提出了一种新的框架,通过信息几何的方法理解自然刺激的视网膜表示实现的刺激辨别能力。创建了一个基于三层卷积神经网络模型的随机编码模型,模拟了群体蝾螈视网膜神经节细胞对自然场景的反应条件概率分布。
效果:发现最具有辨别力的刺激在不同的刺激中变化很大,允许研究当前刺激和最具辨别力的刺激之间的关系。观察到在自然场景下,视网膜噪声相关性是信息限制的,而不是像以前推测的那样增加信息传输。此外,发现群体编码比单个细胞更不易饱和,并且作为发射率的函数,费雪信息的变化小于敏感性。得出结论,在自然场景下,群体编码受益于互补编码,有助于平衡不同发射率携带的信息,这可能有利于根据信息最大化原则解码刺激。
MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks
Allen Nie Yuhui Zhang Atharva Amdekar Christopher J Piech Tatsunori Hashimoto Tobias Gerstenberg
研究问题:本文旨在探索大型语言模型(LLMs)在文本情境中做出的因果和道德判断是否与人类参与者的判断一致。
动机:尽管最新的大型语言模型在总体水平上的判断已经接近人类,但通过统计分析发现,它们对不同因素的权重分配与人类参与者存在显著差异。
方法:从24篇认知科学论文中收集故事并开发系统对这些故事进行标注,使用这个数据集来测试大型语言模型是否能做出与人类参与者一致的因果和道德判断。
效果:结果显示,虽然大型语言模型的隐含倾向在一定程度上与人类的直觉相吻合,但在权重分配上仍存在明显的差异。
On the Exploitability of Instruction Tuning
Manli Shu Jiongxiao Wang Chen Zhu Jonas Geiping Chaowei Xiao Tom Goldstein
研究问题:本文旨在调查对手如何通过在训练数据中注入特定的指令跟随示例来利用指令调优,从而改变模型的行为。
动机:当前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:我们提出了一种名为AutoPoison的自动化数据中毒管道,它自然而连贯地将多种攻击目标融入到被污染的数据中,以实现改变模型行为的目标。
效果:实验结果表明,AutoPoison允许攻击者仅通过污染一小部分数据就能改变模型的行为,同时保持被污染示例的高度隐蔽性。我们希望我的工作能揭示数据质量如何影响指令调优模型的行为,并提高人们对负责任部署LLMs的重要性的认识。
Are Vision Transformers More Data Hungry Than Newborn Visual Systems?
Lalit Pandey Samantha Marie Waters Wood Justin Newell Wood
研究问题:现有的视觉转换器模型是否比生物学习模型更“数据饥饿”?
动机:研究者对使用视觉转换器作为生物学习模型的价值提出质疑,因为视觉转换器被认为比大脑更需要数据。
方法:通过在视频游戏引擎中构建虚拟动物实验室,模拟贫乏的视觉环境,并记录代理在其中移动时获取的第一人称图像,用于训练利用时间作为教学信号的自监督视觉转换器。
效果:当视觉转换器通过新生小鸡的眼睛进行训练时,它们解决了与小鸡相同的视不变对象识别任务。因此,视觉转换器并不比新生小鸡更“数据饥饿”:两者都在贫乏的视觉环境中学习了视不变的对象表示。视觉转换器的灵活和通用的注意力基础学习机制,结合新生动物可用的具身数据流,似乎足以驱动类似动物的对象识别的发展。
On Transfer of Adversarial Robustness from Pretraining to Downstream Tasks
Laura Fee Nern Harsh Raj Maurice Georgi Yash Sharma
研究问题:本研究旨在探讨预训练模型在下游任务中的鲁棒性转移问题。
动机:尽管预训练已被证明能提高模型在实践中的性能,但预训练的鲁棒性属性如何转移到下游任务中仍然不清楚。
方法:通过理论分析和实际应用验证,证明了线性预测器在下游任务中的鲁棒性受其基础表示的鲁棒性约束。
效果:研究结果为描述表示函数对可靠后适应性能的需求提供了初步步骤,并可用于校准对下游鲁棒性的期待和优化迁移学习。
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
Hassan Akbari Dan Kondratyuk Yin Cui Rachel Hornung Huisheng Wang Hartwig Adam
研究问题:如何有效地整合多种模态的输入,如图像、视频、文本和音频,进行多任务训练和模型构建?
动机:目前的多模态模型通常需要为每种模态设计特定的组件,这限制了模型的扩展性和效率。
方法:提出了一种简单且可扩展的多模态多任务训练和模型构建方法——综合多模态感知(IMP)。该方法将各种模态的输入集成到一个单一的Transformer编码器中,并使用交替梯度下降(AGD)和专家混合(MoE)进行有效的模型和任务缩放。
效果:通过广泛的实证研究,发现通过在不同的模态、损失函数和任务上交替执行梯度下降更新,以及在单个模态无关的编码器上使用MoE进行稀疏化,可以显著提高模型的性能。IMP在一系列下游任务上取得了有竞争力的性能,包括视频分类、图像分类、图像-文本和视频-文本检索。特别是在视频任务上,训练了一个稀疏的IMP-MoE-L模型,在零样本视频分类上取得了新的最先进成果,同时只使用了15%的总训练计算成本。
Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery
Yuxin Wen Neel Jain John Kirchenbauer Micah Goldblum Jonas Geiping Tom Goldstein
研究问题:如何通过优化提示来控制现代生成模型。
动机:现有的硬提示需要人工设计,而软提示虽然可以通过强大的优化方法发现,但无法轻易编辑、跨模型复用或插入文本接口。
方法:提出一种简单易用的方法,通过高效的梯度基优化自动优化硬文本提示。
效果:该方法可以应用于文本到图像和纯文本应用,使API用户能够在不了解如何提示模型的情况下轻松生成、发现和混合图像概念。此外,通过使用这种方法,我们可以绕过Midjourney实施的基于令牌级内容过滤器,通过开源文本编码器进行优化。
Learning Reliable Logical Rules with SATNet
Zhaoyu Li Jinpei Guo Yuhe Jiang Xujie Si
研究问题:如何将逻辑推理与深度学习相结合,生成可解释和可验证的逻辑规则。
动机:目前的深度学习模型虽然强大,但其内部逻辑往往难以理解,无法直接生成人类可读的规则。
方法:提出一种新的框架,通过不同的学习方式生成可解释和可验证的逻辑规则,不依赖于预先设定的逻辑结构。该方法基于SATNet,一个可以从输入输出示例中学习基本规则的可微分的最大满足性求解器。
效果:实验结果表明,该方法生成的规则非常可靠,使用精确求解器可以达到100%的准确率,而原始的SATNet在许多情况下无法给出正确的解决方案。此外,我们还形式化地验证了解码后的逻辑规则与真实规则在功能上是等价的。
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting
Xi Ye Qiaochu Chen Isil Dillig Greg Durrett
研究问题:如何提高大型语言模型的推理能力,特别是在需要复杂规划和搜索的约束求解问题上。
动机:目前的大语言模型在需要进行复杂规划和搜索的约束求解问题上表现不佳。
方法:提出一种新的基于可满足性辅助的语言模型(SatLM)方法,使用大型语言模型生成声明式的任务规格,然后利用现成的自动定理证明器来推导出最终的答案。
效果:在8个不同的数据集上进行评估,结果显示SatLM始终优于程序辅助的语言模型,在一些具有挑战性的子集上,SatLM的性能甚至超过了之前的方法。
Learning to Modulate pre-trained Models in RL
Thomas Schmied Markus Hofmarcher Fabian Paischer Razvan Pascanu Sepp Hochreiter
研究问题:强化学习(RL)在适应新任务方面存在不足,预训练模型在微调新任务时会出现灾难性遗忘现象。
动机:为了解决预训练模型在新任务上的灾难性遗忘问题,本文提出了一种新颖的学习方法——学习调节(L2M)。
方法:首先在Meta-World和DMControl两个基准测试套件上联合预训练一个模型,然后评估和比较多种自然语言处理中的常见微调方法。最后,提出一种新的方法L2M,通过可学习的调制池来调节冻结的预训练模型的信息流,以避免已学习技能的退化。
效果:该方法在连续世界基准测试中取得了最先进的性能,同时保持了预训练任务的性能。
Enhancing Robot Program Synthesis Through Environmental Context
Tianyi Chen Qidi Wang Zhen Dong Liwei Shen Xin Peng
研究问题:如何通过部分观察的环境进行程序合成。
动机:现有的机器人编程方法需要对整个环境有全面的理解,这在实际操作中往往难以实现。
方法:提出一个框架,通过修正可能错误的代码段来进行程序合成,并利用部分观察的环境。首先学习一个环境嵌入空间,根据预设条件隐式评估每个程序标记的影响;然后通过图结构聚合环境和语法信息流,提供平滑的程序修正指导。
效果:在部分观察的VizDoom领域进行的大量实验评估和消融研究表明,该方法在各种任务上具有优越的泛化能力,并在遇到噪声时具有更强的鲁棒性。
CoLLAT: On Adding Fine-grained Audio Understanding to Language Models using Token-Level Locked-Language Tuning
Amila Silva Spencer Whitehead Chris Lengerich Hugh James Leather
研究问题:现有的音频分类模型在训练过程中无法预测未见过的类型,导致性能不佳。
动机:为了解决这个问题,研究人员开始探索使用预训练语言模型的自然语言监督进行对比语言-音频预训练,以学习音频理解模型。
方法:提出CoLLAT框架,通过一种新的音频到文本的预训练目标来有效学习锁定的语言模型,从而实现细粒度的音频理解。
效果:实验证明,CoLLAT在音频理解方面取得了最先进的性能,并在基于预训练语言模型的应用程序中解锁了音频指导功能。
Large Language Models Are Zero-Shot Time Series Forecasters
Nate Gruver Marc Anton Finzi Shikai Qiu Andrew Gordon Wilson
研究问题:如何利用大型语言模型进行时间序列预测?
动机:将时间序列编码为数字字符串,将时间序列预测视为文本中的下一个标记预测。
方法:使用GPT-3和LLaMA-2等大型语言模型进行零样本的时间序列外推,并提出了有效的时间序列数据标记化和离散标记分布转化为连续值密度的转换方法。
效果:大型语言模型在处理许多时间序列(如重复的季节趋势)时,由于其能够自然表示多模态分布、简单性和重复性等特性,表现出色。同时,大型语言模型还可以通过非数值文本处理缺失数据,适应文本侧信息,并回答问题以帮助解释预测结果。然而,研究发现增加模型大小并不一定能提高性能,例如GPT-4由于其数字标记化方式和不良的不确定性校准,可能表现不如GPT-3。
Neuro-symbolic Learning Yielding Logical Constraints
Zenan Li Yunpeng Huang Zhaoyu Li Yuan Yao Jingwei Xu Taolue Chen Xiaoxing Ma Jian Lu
研究问题:本文旨在解决神经符号系统端到端学习的难题。
动机:目前的神经符号系统需要改进神经网络训练、符号基础和逻辑约束合成的交互性。
方法:提出了一个融合神经网络训练、符号基础和逻辑约束合成的自然框架,通过引入差异凸规划技术来放松逻辑约束,同时保持其精度。
效果:理论分析和实证评估证实了该框架的有效性。
Focused Transformer: Contrastive Training for Context Scaling
Szymon Tworkowski Konrad Staniszewski Mikołaj Pacek Yuhuai Wu Henryk Michalewski Piotr Miłoś
研究问题:大型语言模型的有效上下文长度受限,如何提高其上下文处理能力?
动机:随着文档数量的增加,相关键和无关键的比例下降,导致模型更关注无关键,即注意力分散问题。
方法:提出Focused Transformer(FoT)技术,通过对比学习的训练过程增强(key, value)空间的结构,以延长上下文长度。
效果:对$3 B$和$7 B$ OpenLLaMA模型进行微调后,得到的新型模型LongLLaMA在需要长上下文的任务上表现优越,并能管理长达$256 k$的上下文长度进行密钥检索。
Frequency-Enhanced Data Augmentation for Vision-and-Language Navigation
Keji He Chenyang Si Zhihe Lu Yan Huang Liang Wang Xinchao Wang
研究问题:如何提高基于自然语言指令的视觉-语言导航(VLN)任务的性能。
动机:现有的VLN方法主要关注空间域的探索,我们提出转向傅里叶域的新视角,以增强视觉-文本匹配,提高理解并执行基于给定指令的导航任务的能力。
方法:我们首先探讨了高频信息在VLN中的重要性,并提出了一种复杂的、多功能的频率增强数据增强(FDA)技术,以提高VLN模型捕获关键高频信息的能力。
效果:我们在R2R, RxR, CVDN和REVERIE等数据集上的实验结果表明,我们的FDA可以很容易地与现有的VLN方法集成,在不增加额外参数的情况下提高性能,同时保持模型的简单和高效。
Human-Guided Complexity-Controlled Abstractions
Andi Peng Mycal Tucker Eoin M. Kenny Noga Zaslavsky Pulkit Agrawal Julie Shah
研究问题:训练神经网络生成一系列离散表示,并通过调整表示的熵来控制表示的复杂性。
动机:受人类学习的启发,我们训练神经网络以产生一系列的离散表示,并控制表示的复杂性(即编码输入的位数)。
方法:通过调整分布的熵来控制表示的复杂性,并在新任务中使用少量标记示例进行微调实验。
效果:实验结果表明,将表示调整为适合任务的复杂性水平可以支持最大的微调性能,并且在人类参与者研究中,用户能够通过离散表示的可视化识别下游任务的适当复杂性级别。
Few-shot Generation via Recalling Brain-Inspired Episodic-Semantic Memory
Zhibin Duan Lv Zhiyi Chaojie Wang Bo Chen Bo An Mingyuan Zhou
研究问题:如何将生成模型适应于只有少量给定数据样本的新颖生成任务,以提高少数生成能力。
动机:现实世界中许多应用的数据有限,如艺术领域,少数生成能力对于这些应用至关重要。
方法:受人类大脑记忆机制的启发,设计了一种变分结构化记忆模块(VSM),可以同时存储情节记忆和语义记忆,以帮助现有的生成模型在样本生成过程中有效地回忆这些记忆。同时引入了一种仿生的记忆更新策略,用于转换情节记忆和语义记忆,也可以模拟转换过程中的不确定性。然后将开发的VSM与各种生成模型结合在贝叶斯框架下,并使用少数生成任务评估这些记忆增强的生成模型,证明了我们的方法的有效性。
效果:实验结果表明,通过结合VSM和生成模型,可以显著提高少数生成能力,并在少数生成任务上取得良好的效果。
Latent Space Translation via Semantic Alignment
Valentino Maiorca Luca Moschella Antonio Norelli Marco Fumero Francesco Locatello Emanuele Rodolà
研究问题:不同神经网络模型的隐空间在面对语义相关数据时往往表现出相似性,但这种内在相似性并不总是立即可辨。
动机:为了更好地理解这种现象,本研究展示了如何通过比之前认为更简单的转换,在不同的预训练网络之间转换这些神经网络模块学习到的表示。
方法:该方法直接估计两个给定隐空间之间的转换,从而无需额外训练即可有效地拼接编码器和解码器。
效果:在各种实验设置中广泛验证了这种转换程序的适应性,包括不同的训练、领域、架构(如ResNet、CNN、ViT)以及多个下游任务(分类、重建)。特别地,我们展示了如何在多模态设置中零次击中拼接文本编码器和视觉解码器,或反之,产生了令人惊讶的良好分类性能。
NuTrea: Neural Tree Search for Context-guided Multi-hop KGQA
Hyeong Kyu Choi Seunghun Lee Jaewon Chu Hyunwoo J. Kim
研究问题:如何有效地从知识图谱中检索节点以回答自然语言问题。
动机:现有的基于图神经网络的方法只关注于从种子节点到答案节点的消息传递,忽视了整个知识图谱的上下文信息,且对代表实体的KG节点的处理存在问题。
方法:提出了一种基于树搜索的图神经网络模型Neural Tree Search (NuTrea),该模型引入了更广泛的知识图谱上下文,并采用了一种新的消息传递机制来增强过去导向的嵌入。同时,还引入了考虑全局知识图谱上下文的关系频率-逆实体频率(RF-IEF)节点嵌入,以更好地表征模糊的知识图谱节点。
效果:通过在三个主要的多跳知识图谱问答基准数据集上的实验,验证了该方法的有效性。进一步的分析也证实了其表达性和鲁棒性。总的来说,NuTrea为使用复杂的自然语言问题查询知识图谱提供了强大的工具。
Extensible Prompts for Language Models on Zero-shot Language Style Customization
Tao Ge Jing Hu Li Dong Shaoguang Mao Yan Xia Xun Wang Si-Qing Chen Furu Wei
研究问题:如何让大型语言模型理解并处理超出自然语言范围的概念?
动机:目前的模型在处理一些难以用自然语言描述的概念时存在困难,需要一种方法来扩展模型的理解能力。
方法:提出可扩展提示(X-Prompt)方法,通过引入虚构词汇来指导语言模型理解复杂概念,同时设计了具有OOD鲁棒性的虚构词,使其能在各种提示中重复使用。
效果:实验结果显示,X-Prompt能有效帮助大型语言模型理解和处理超出自然语言范围的概念,为人类和语言模型之间的交流提供了新的桥梁。
Adapting Neural Link Predictors for Data-Efficient Complex Query Answering
Erik Arakelyan Pasquale Minervini Daniel Daza Michael Cochez Isabelle Augenstein
研究问题:解决知识图谱中不完整知识下复杂查询的问题。
动机:现有的方法要么需要大量数据和资源进行训练,要么解释性差。
方法:提出CQD$^{\mathcal{A}}$模型,通过优化神经链接预测得分来重新校准复杂查询的答案。
效果:在实验中,CQD$^{\mathcal{A}}$比当前最先进的方法表现更好,提高了34.4到35.1的均值倒数排名值,同时使用的查询类型不超过30%。
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context
Lakshya Agrawal Aditya Kanade Navin Goyal Shuvendu K Lahiri Sriram Rajamani
研究问题:代码语言模型在处理类型、功能或APIs时,由于缺乏全局上下文的理解,往往会出现误判。
动机:为了解决代码语言模型在处理全局上下文时的局限性,研究者提出了利用静态分析辅助解码的方法。
方法:研究者提出了一种名为monitor-guided decoding(MGD)的方法,通过静态分析来指导解码过程。并在PragmaticCode数据集上进行了方法完成的任务评估。
效果:实验结果表明,MGD可以显著提高编译率和与真实值的一致性。此外,参数较少的LM在加入MGD后,性能甚至超过了参数更多的LM。在多种编程语言和编程场景下,MGD也显示出良好的泛化能力。
On Masked Pre-training and the Marginal Likelihood
Pablo Moreno-Muñoz Pol G. Recasens Søren Hauberg
研究问题:本文旨在理解遮蔽预训练的成功之处,并探索大型语言模型的遮蔽预训练的主要学习原则。
动机:遮蔽预训练是一种直观的自监督学习方法,但其成功的原因尚不清楚。
方法:通过使用适当的累积评分函数进行遮蔽预训练,并将其与最大化模型的边缘似然性联系起来,从而理解遮蔽预训练的成功之处。
效果:理论上,我们证实了这种发展的理论,并在实践中确认了遮蔽预训练的主要学习原则。
Make Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning
Baohao Liao Shaomu Tan Christof Monz
研究问题:如何有效地进行预训练语言模型的参数高效微调,同时减少内存消耗。
动机:现有的参数高效微调方法在提高性能的同时,需要缓存大部分中间激活值,导致内存消耗大。
方法:通过插入适配器到预训练语言模型中,保留模型的初始状态,使其成为可逆模型,从而实现内存高效的微调。
效果:该方法在GLUE基准测试和五个问答任务上表现出色,显著减少了84%的激活内存,同时保持了与全量微调相当的性能。
Vocabulary-free Image Classification
Alessandro Conti Enrico Fini Massimiliano Mancini Paolo Rota Yiming Wang Elisa Ricci
研究问题:本文旨在解决在未知和不断变化的语义环境下,预定义类别集(即词汇表)在测试时间被假设用于构造文本提示的问题。
动机:尽管大型视觉-语言模型在图像分类方面取得了显著的进步,但在语义上下文未知和不断变化的情况下,预定义的类别集可能不实用。
方法:本文提出了一种新的任务,称为无词汇图像分类(VIC),目标是为输入图像分配一个位于未受约束的语言引发的语义空间中的类别,无需已知的词汇表。我们首先通过外部视觉-语言数据库来表示这个巨大的语义空间,然后提出一种从外部数据库中搜索类别的方法(CaSED)。
效果:实验结果表明,CaSED比其他复杂的视觉-语言框架表现更好,同时参数更少,为未来在这个方向的研究铺平了道路。
Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents
Wenlong Huang Fei Xia Dhruv Shah Danny Driess Andy Zeng Yao Lu Pete Florence Igor Mordatch Sergey Levine Karol Hausman brian ichter
研究问题:如何将大型语言模型(LLMs)与具有实体的设置(如机器人)相结合,使其能够理解现实世界并执行长期任务。
动机:现有的预训练语言模型在应用于实体化代理(如机器人)时面临挑战,因为它们缺乏对物理世界的经验,无法解析非语言观察,并且不了解机器人可能需要的奖励或安全约束。
方法:通过交互数据学习的语言条件机器人策略可以提供必要的基础,使代理正确地位于现实世界中,但这种策略受到可用训练交互数据范围有限的限制,缺乏高级语义理解。因此,如果希望在使用语言模型的同时将其置于实体化环境中,必须构造一个既符合语言模型又符合环境基础模型的动作序列。
效果:通过三个模拟和现实世界领域的实验,证明了这种基于环境的模型可以获得,并且所提出的解码策略能够通过利用两种模型的知识来解决复杂的、长期的机器人设置中的实体化任务。
Learning from Both Structural and Textual Knowledge for Inductive Knowledge Graph Completion
Kunxun Qi Jianfeng Du Hai Wan
研究问题:如何利用结构化知识和文本知识来学习规则系统,以改进知识图谱补全(KGC)的效果。
动机:现有的基于规则的系统只接受结构知识作为输入,可能会忽略一些有用的推理知识,如文本知识。
方法:提出了一个两阶段框架,同时引入结构和文本知识来学习规则系统。第一阶段从文本语料库中通过远程监督计算一组带有置信度分数的三元组(称为“软三元组”)。第二阶段使用这些软三元组来学习用于KGC的规则模型。为了减轻软三元组带来的噪声影响,提出了一种新的规则形式,称为“文本增强规则”或“TE-规则”。并设计了一个模拟TE-规则推理的神经网络模型。
效果:实验结果表明,引入软三元组和TE-规则可以显著提高归纳链接预测的性能。
Emergent and Predictable Memorization in Large Language Models
Stella Biderman USVSN Sai Prashanth Lintang Sutawika Hailey Schoelkopf Quentin Gregory Anthony Shivanshu Purohit Edward Raff
研究问题:大型语言模型(LLMs)倾向于逐字输出其训练数据中的所有序列,这对部署语言模型是一个关键问题。
动机:特别需要减少模型对包含个人身份信息(PII)等敏感数据点的逐字记忆,这种不良记忆的普遍性可能会给模型训练者带来问题,甚至可能需要丢弃其他功能正常的模型。
方法:我们通过预测大型模型在完全训练之前会记住哪些序列来外推低计算试验运行的记忆行为。我们在Pythia模型套件中测量记忆,并绘制用于预测记忆的规模定律,以便提供等效计算建议以最大化此类预测的可靠性(召回率)。
效果:我们提供了关于模型和数据之间记忆分数分布的进一步新发现。我们在https://github.com/EleutherAI/pythia上发布了重现本文结果所需的所有代码和数据。
Large Language Models for Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering
Noah Hollmann Samuel Müller Frank Hutter
研究问题:如何将领域知识融入自动化机器学习(AutoML)系统?
动机:随着AutoML的发展,将领域知识引入这些系统变得越来越重要。
方法:提出了一种利用大型语言模型(LLMs)的方法,即上下文感知的自动特征工程(CAAFE)。这是一种针对表格数据集的特征工程方法,利用LLM根据数据集描述迭代生成具有语义意义的额外特征。该方法同时生成创建新特性的Python代码和对生成特性效用的解释。
效果:尽管方法简单,但CAAFE在14个数据集中提高了11个的性能——所有数据集的平均ROC AUC性能从0.798提高到0.822,类似于在我们的数据集上使用随机森林而不是逻辑回归所实现的改进。此外,CAAFE是可解释的,为每个生成的特性提供文本解释。CAAFE为数据科学任务的更广泛半自动化铺平了道路,并强调了可以扩展AutoML系统范围到语义AutoML的上下文感知解决方案的重要性。
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment
Hao Liu Wilson Yan Pieter Abbeel
研究问题:如何让大型语言模型与视觉感知进行连接,以扩展至真实世界的任务,如视觉问答和机器人技术。
动机:目前的语言模型在处理视觉-语言任务时,由于缺乏对视觉感知的基础理解,表现不佳。现有的方法主要通过预训练或微调将图像与文本关联起来,但这种方法成本高且计算量大。
方法:提出一种名为Language-Quantized AutoEncoder(LQAE)的简单有效方法,该方法通过使用预训练的语言模型去噪器(如BERT)来无监督地对齐文本-图像数据。主要思想是将图像编码为文本令牌序列,直接使用预训练的语言代码本对图像嵌入进行量化,然后将量化后的嵌入的掩码版本输入到BERT中以重建原始输入。
效果:LQAE学习了相似的图像对应相似的文本令牌簇,从而无需使用对齐的文本-图像对就能实现这两种模态的对齐。实验表明,LQAE可以在大型语言模型上实现少样本多模态学习,在图像分类和视觉问答等任务上优于基线方法,同时只需要1-10个图像-文本对即可。
DesCo: Learning Object Recognition with Rich Language Descriptions
Liunian Harold Li Zi-Yi Dou Nanyun Peng Kai-Wei Chang
研究问题:如何让视觉识别模型更好地理解复杂的语言描述,并从中获取上下文信息。
动机:现有的视觉-语言方法虽然能通过语言查询来对齐对象,但往往忽视了描述中的上下文信息,过于依赖对象名称进行检测。
方法:提出一种新的描述条件(DesCo)学习范式,利用大型语言模型生成丰富的对象语言描述,设计上下文敏感的查询,以提升模型解析复杂细节和关注上下文的能力。
效果:在两个新的物体检测基准测试LVIS和OminiLabel上,该方法在零次检测设置下分别取得了34.8 APr minival (+9.1) 和29.3 AP (+3.6)的成绩,大幅超过了先前最先进的模型GLIP和FIBER。
Emergent Communication in Interactive Sketch Question Answering
Zixing Lei Yiming Zhang Yuxin Xiong Siheng Chen
研究问题:如何通过视觉基础的紧急通信(EC)学习通过草图进行交流,并理解人类交流的演变。
动机:先前的研究忽视了在人类交流中不可或缺的多轮交互。
方法:我们首先引入了一个新的交互式草图问答(ISQA)任务,其中两个协作的玩家通过草图互动来回答关于图像的问题。为了完成这个任务,我们设计了一个新的、高效的交互式EC系统,可以在问题回答准确性、绘图复杂度和人类可解释性这三个评估因素之间实现有效的平衡。
效果:实验结果表明,多轮交互机制促进了智能代理之间的目标导向和高效通信。
Brant: Foundation Model for Intracranial Neural Signal
Daoze Zhang Zhizhang Yuan Yang Yang Junru Chen Jingjing Wang Yafeng Li
研究问题:本文旨在提出一种名为Brant的基础模型,用于模拟颅内记录,通过预训练学习颅内神经信号的强大表示,为医学提供大规模、现成的模型。
动机:目前缺乏对颅内神经信号的大规模、现成的模型。
方法:采用预训练的方式,从我们收集的大量颅内数据中学习颅内神经信号的强大表示,设计Brant模型以捕捉神经信号的长期时间依赖性和空间相关性,结合时域和频域的信息。
效果:作为基础模型,Brant在各种下游任务(如神经信号预测、频率-相位预测、插补和癫痫发作检测)上达到了最先进的性能,显示出对广泛任务的泛化能力。同时,低资源标签分析和表示可视化进一步证明了我们的预训练策略的有效性。此外,我们还探索了模型大小的影响,结果显示,具有更高容量的更大模型可以在我们的数据集上提高性能。
Universality and Limitations of Prompt Tuning
Yihan Wang Jatin Chauhan Wei Wang Cho-Jui Hsieh
研究问题:尽管提示调优已被证明能有效适应预训练语言模型的新任务,但"在输入前调整参数"与"调整模型权重"之间差异的理论依据仍有限。
动机:我们首次尝试理解软提示调优在基于变压器的架构中的作用。
方法:通过考虑通用架构,我们从普遍近似和有限深度固定权重预训练变压器对连续值函数的限制两个角度分析提示调优。
效果:我们的普遍结果保证了存在一个强大的变压器,可以通过提示来逼近 Lipschitz 函数集中的任何序列到序列函数。我们还证明了对于有限深度变压器,提示调优存在局限性,并提供了所需的可调提示参数数量的下限。此外,我们的分析还扩展到了多层设置,并提供了充分条件,使得变压器最多只能学习可逆函数的数据集。
Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning
Lin Guan Karthik Valmeekam Sarath Sreedharan Subbarao Kambhampati
研究问题:如何有效地利用预训练大型语言模型(LLMs)进行计划问题。
动机:当前直接使用LLMs作为规划器的方法存在一些问题,如计划的正确性有限,过度依赖与模拟器或实际环境的交互反馈,以及利用人类反馈的效率低下。
方法:提出了一种新的替代范式,首先在PDDL中构建一个明确的世界(领域)模型,然后使用无领域依赖的规划器进行规划。为了解决LLMs可能无法初始生成完全功能的PDDL模型的问题,我们让LLMs作为PDDL和纠正反馈源(如PDDL验证器和人类)之间的接口。
效果:在两个IPC领域和一个比常见的基准测试(如ALFWorld)更复杂的Household领域上,我们证明了GPT-4可以被用来为超过40个动作生成高质量的PDDL模型,修正后的PDDL模型被成功用于解决了48个具有挑战性的规划任务。
ALGO: Synthesizing Algorithmic Programs with Generated Oracle Verifiers
Kexun Zhang Danqing Wang Jingtao Xia William Yang Wang Lei Li
研究问题:大型语言模型在实现功能描述的代码方面表现出色,但在需要确定合适算法的算法问题上表现不佳,且生成的程序缺乏正确性保证,需要人工验证。
动机:为了解决这些问题,我们提出了ALGO框架,该框架通过结合大型语言模型生成的“指南”和算法程序来指导其生成并验证其正确性。
方法:ALGO首先通过提示大型语言模型穷举所有相关变量的组合来生成一个参考指南。然后利用这个指南来指导任意搜索策略探索算法空间并验证合成的算法。
效果:实验表明,大型语言模型生成的指南在88%的情况下是正确的。有了这个指南作为验证器,ALGO可以以与任何现有代码生成模型无关的方式集成,从而提高其性能。实验表明,配备ALGO后,我们在CodeContests上的一个提交通过率比Codex模型高出8倍,比当前最先进的CodeT模型高出2.6倍。我们还能在未见过的问题上获得比ChatGPT Code Interpreter高出1.3倍的通过率。
Towards Foundation Models for Scientific Machine Learning: Characterizing Scaling and Transfer Behavior
Shashank Subramanian Peter Harrington Kurt Keutzer Wahid Bhimji Dmitriy Morozov Michael W. Mahoney Amir Gholami
研究问题:本文旨在研究预训练机器学习模型在科学机器学习(SciML)应用中的转移学习行为,特别是在不同物理问题的混合预训练模型如何适应各种下游应用。
动机:通过预训练和微调的方式,可以显著减少下游示例的数量,同时达到所需的准确度水平,这为解决科学机器学习问题提供了新的可能性。
方法:通过扩大预训练模型的规模、扩大下游训练数据集的规模、将物理参数推向分布之外以及使用预训练在不同物理问题上的混合模型来适应各种下游应用,来研究预训练模型的转移行为。
效果:实验结果表明,当进行适当的微调时,预训练和微调的方法可以帮助达到所需的准确度水平,其性能提升比从零开始训练更大。这种方法对广泛的偏微分方程学习任务都有效。
The Impact of Positional Encoding on Length Generalization in Transformers
Amirhossein Kazemnejad Inkit Padhi Karthikeyan Natesan Payel Das Siva Reddy
研究问题:Transformer模型在训练上下文大小从小型扩展到大型时的长度泛化能力是一个关键挑战。
动机:位置编码(PE)被认为是影响长度泛化的主要因素,但不同PE方案对下游任务的外推影响尚不清楚。
方法:本研究比较了五种不同的位置编码方法,包括绝对位置嵌入(APE)、T5的相对PE、ALiBi、Rotary以及没有位置编码的Transformers(NoPE),在解码器仅Transformers上进行系统的经验性研究。
效果:研究发现,最常用的位置编码方法,如ALiBi、Rotary和APE,在下游任务的长度泛化上表现不佳。更重要的是,NoPE在不需要额外计算的情况下优于其他显式位置编码方法。理论上证明,NoPE可以表示绝对和相对PE,但在使用SGD训练时,它主要类似于T5的相对PE注意力模式。最后,我们发现scratchpad并不总是有助于解决长度泛化问题,其格式对模型性能有很大影响。总的来说,我们的研究显示显式位置嵌入对于解码器仅Transformers的良好长序列泛化并非必要。
Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation
Zihao Yue Anwen Hu Liang Zhang Qin Jin
研究问题:本文旨在解决图像描述生成模型在训练过程中存在的优化方向冲突问题。
动机:现有的图像描述生成模型在训练过程中,由于最大似然估计的训练目标,其预测结果与标签不匹配时会被惩罚,导致模型倾向于生成更简洁的描述,而忽视了丰富的语义信息。
方法:本文提出了半透性最大似然估计(SMILE)方法,允许模型进行丰富度优化,同时阻止简洁度优化,从而鼓励模型生成更长、包含更多细节的描述。
效果:在两个主流的图像描述数据集MSCOCO和Flickr30K上的大量实验表明,SMILE方法显著提高了生成描述的详细程度。
Language Models are Weak Learners
Hariharan Manikandan Yiding Jiang J Zico Kolter
研究问题:本文旨在探讨大型语言模型作为弱学习器在提升算法中的应用。
动机:现有的预训练语言模型可以捕获丰富的语义模式,但很少被用于结合结构化知识图谱进行联合训练。
方法:利用大规模文本语料库和知识图谱训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation
Chenyang Le Yao Qian Long Zhou Shujie LIU Yanmin Qian Michael Zeng Xuedong Huang
研究问题:本文旨在解决联合语音-语言训练的挑战,包括对大量训练数据和GPU的需求,以及语音和语言之间的模态差距。
动机:由于需要大量的训练数据和GPU,并且语音和语言之间存在模态差距,因此联合语音-语言训练具有挑战性。
方法:我们提出了ComSL模型,该模型建立在公共预训练的仅语音和仅语言模型的复合架构之上,并针对口语任务进行了优化。特别是,我们将跨模态学习纳入迁移学习中,并以多任务学习的方式进行下游任务。
效果:我们的方法是有效的,在端到端的语音到文本翻译任务上取得了显著的效果,在21种语言的多语言语音到英语文本翻译任务上,我们在公开的CoVoST2评估集上达到了新的最先进的平均BLEU得分为31.5。
ChatGPT-Powered Hierarchical Comparisons for Image Classification
Zhiyuan Ren Yiyang Su Xiaoming Liu
研究问题:零样本开放词汇设置对图像分类提出了挑战。
动机:利用像CLIP这样的视觉语言模型,通过比较嵌入来对图像进行分类,但CLIP仍然对某些类别有偏见,并忽视了不同类别之间的差异。
方法:我们提出了一种新的图像分类框架,通过递归比较和分组类,构建了一个类层次结构。通过这种层次结构,我们可以从上到下逐层比较图像和文本嵌入来进行图像分类。
效果:实验和分析表明,我们提出的方法直观、有效且可解释。
Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting
Hejie Cui Xinyu Fang Zihan Zhang Ran Xu Xuan Kan Xin Liu Yue Yu Manling Li Yangqiu Song Carl Yang
研究问题:现有的视觉知识提取方法通常依赖于预定义的格式或词汇,限制了提取知识的表达能力。
动机:图像包含丰富的关系性知识,可以帮助机器理解世界。
方法:提出了一种新的开放视觉知识提取范式,包括一个开放的关联区域检测器和一个视觉知识生成器。
效果:通过广泛的知识质量评估,证明了OpenVik提取的开放视觉知识的正确性和独特性。在各种视觉推理应用中整合我们提取的知识,显示出持续的改进,表明OpenVik具有实际的应用价值。
Connecting Pre-trained Language Model and Downstream Task via Properties of Representation
Chenwei Wu Holden Lee Rong Ge
研究问题:本文旨在探讨预训练性能与下游任务性能之间的关系。
动机:尽管大型预训练语言模型的表示在各种下游任务中很有用,但关于预训练性能如何影响下游任务性能的理论理解却很少。
方法:通过分析一个以softmax作为最后一层网络的对数线性模型,研究了预训练性能和下游任务性能的关系。
效果:研究发现即使下游任务结构严谨且依赖于隐藏表示的简单函数,低预训练损失也不能保证良好的下游任务性能。另一方面,作者提出了“锚向量”的存在假设,并验证了这一假设以及下游任务的性质能够保证性能转移。
EMMA-X: An EM-like Multilingual Pre-training Algorithm for Cross-lingual Representation Learning
Ping Guo Xiangpeng Wei Yue Hu Baosong Yang Dayiheng Liu Fei Huang jun xie
研究问题:如何利用大规模非平行数据学习跨语言的通用表示。
动机:由于平行数据的稀疏和稀缺,学习任何两种语言的真实“通用”仍然是一个重大挑战。
方法:提出Emma-X,一种类似EM的多语言预训练算法,借助大量的多语言非平行数据学习跨语言的通用表示。Emma-X在EM框架内统一了跨语言表示学习和额外的语义关系预测任务。
效果:在xrete(一个包含12个广泛研究的依赖句子级别表示的跨语言任务的新基准)上进行实验,结果显示Emma-X取得了最先进的性能。
Mass-Producing Failures of Multimodal Systems with Language Models
Shengbang Tong Erik Jones Jacob Steinhardt
研究问题:多模态模型在部署时可能会出现评估者未能预料的失败,如何找出这些失败?
动机:为了在部署前找到这些失败,我们引入了MultiMon系统,它能自动识别系统性失败。
方法:通过抓取产生相同输出但不应如此的输入例子,提示语言模型识别常见类别并用自然语言描述它们。
效果:使用MultiMon找到了CLIP文本编码器的14个系统性失败,并针对特定的应用场景(如自动驾驶汽车)进行定向探索。
Brain-like Flexible Visual Inference by Harnessing Feedback Feedforward Alignment
Tahereh Toosi Elias Issa
研究问题:反馈连接在视觉皮层中如何支持灵活的视觉功能,其机制尚不清楚。
动机:反馈路径通过优化自身目标与前馈路径的对齐,产生顶部效应。
方法:提出反馈-前馈对齐(FFA)学习算法,将反馈和前馈路径作为共同的信用分配计算图,实现对齐。
效果:实验表明,FFA在MNIST和CIFAR10数据集上的分类和重建任务上具有有效性。该对齐机制使反馈连接具有出现视觉推理功能,包括去噪、解决遮挡、幻觉和想象等。此外,与传统的反向传播(BP)方法相比,FFA在实施上具有生物合理性。这项研究展示了FFA作为视觉皮层中反馈连接支持灵活视觉功能的机制的有前景的概念证明。这项工作也对感知现象背后的视觉推理领域做出了贡献,并对开发更具生物启发性的学习算法具有意义。
Efficient Equivariant Transfer Learning from Pretrained Models
Sourya Basu Pulkit Katdare Prasanna Sattigeri Vijil Chenthamarakshan Katherine Rose Driggs-Campbell Payel Das Lav R. Varshney
研究问题:如何提高基础模型在各种下游任务上的效率,特别是在数据有限的情况下。
动机:现有的转移学习方法对于处理不同下游任务的成功至关重要。
方法:提出了一种基于重要性权重λ的等变平均(λ-equitune)方法,通过直接从数据中学习这些权重来获得更好的特征。
效果:实验结果表明,该方法在零样本和微调任务上的表现优于现有的等变平均(equitune)方法,并在多种应用和模型上验证了其有效性。
Testing the General Deductive Reasoning Capacity of Large Language Models Using OOD Examples
Abulhair Saparov Richard Yuanzhe Pang Vishakh Padmakumar Nitish Joshi Mehran Kazemi Najoung Kim He He
研究问题:大型语言模型是否具有通用的演绎推理能力,以及它们如何在不同的复杂性和多样性下进行归纳推理。
动机:大型语言模型(LLMs)在复杂的证明推理任务上的表现尚不明确,需要进一步研究和测试。
方法:通过构建一个可控制的、包含多种演绎规则和证明复杂度的新合成和可编程推理数据集,对四种不同规模和训练目标的大型语言模型进行实验。
效果:实验结果显示,大型语言模型能够进行组合证明的归纳推理,但在长证明和特定证明方式(如分情况证明和反证法)上存在困难,需要明确的示范才能生成假设子证明。
TOA: Task-oriented Active VQA
Xiaoying Xing Mingfu Liang Ying Wu
研究问题:如何让大型语言模型有效地理解图像输入,提取视觉信息并作为知识基础的视觉问答任务的输入。
动机:现有的大型语言模型虽然在知识驱动的任务上表现良好,但无法有效理解图像输入,因此需要找到一种方法来提取图像信息并输入到大型语言模型中。
方法:提出让大型语言模型根据其知识进行初始假设,然后主动收集验证假设所需的视觉证据的方法。利用空间注意力(即看哪里)和属性注意力(即看什么)的观点,借鉴人类认知的方式,从视觉模块的角度进行操作。
效果:实验表明,该方法在开放式基于知识的视觉问答数据集上优于基线,呈现出更清晰的推理过程和更好的可解释性。
Statistical Knowledge Assessment for Large Language Models
Qingxiu Dong Jingjing Xu Lingpeng Kong Zhifang Sui Lei Li
研究问题:大型语言模型(LLM)能否根据不同的提示可靠地生成事实正确的答案?
动机:现有的LLM对于同一事实可能会产生不同的回答,因此需要一种方法来评估和量化LLM的知识。
方法:本文提出了KaRR,这是一种统计方法,用于评估LLM的事实知识。主要思想是估计LLM生成与给定主题和查询关系的提示对应的答案实体的文本的比例,以及它通过随机机会生成的比例。
效果:实验表明,我们的方法与人类对LLM的评估结果有较强的相关性(0.43的Kendall's tau)。结果显示,具有相同主干架构的LLM中的知识遵循规模定律,而调整指令跟随数据有时会损害模型可靠生成事实正确文本的能力。
Localized Symbolic Knowledge Distillation for Visual Commonsense Models
Jae Sung Park Jack Hessel Khyathi Chandu Paul Pu Liang Ximing Lu Peter West Youngjae Yu Qiuyuan Huang Jianfeng Gao Ali Farhadi Yejin Choi
研究问题:现有的视觉语言模型无法直接让用户在图像中“指向”和访问特定区域,这对于研究问题:现有的视觉语言模型无法直接让用户在图像中“指向”和访问特定区域,这对于支持基于参考的视觉语言基准测试以及需要精确图像内推理的实际应用非常重要。
动机:为了解决这个问题,我们构建了一个局部化的视觉常识模型,允许用户指定多个输入区域。
方法:我们通过从大型语言模型中采样局部化常识知识来训练我们的模型。具体来说,我们提示一个大型语言模型根据全局文字图像描述和一组视觉语言模型自动生成的局部文字区域描述来收集常识知识。这个流程是可扩展的,完全自动化的,不需要对齐或人工编写的图像和文本对。
效果:通过使用单独训练的评价模型选择高质量的示例,我们发现仅从图像扩展的局部化常识语料库进行训练可以成功地提炼现有的视觉语言模型以支持参考作为输入接口。实证结果和人类评估在零射设置中表明,与传递生成的引用表达式的基线相比,我们的提炼方法会产生更精确的推理视觉语言模型。
Scaling laws for language encoding models in fMRI
Richard Antonello Aditya Vaidya Alexander Huth
研究问题:本文旨在测试更大的开源模型,如OPT和LLaMA家族的模型,是否能更好地预测使用功能性磁共振成像(fMRI)记录的大脑反应。
动机:大多数比较语言模型与大脑的研究都使用了GPT-2或类似大小的模型。作者们想要探索更大的开源模型是否在预测大脑反应上更有效。
方法:通过对比不同大小的语言模型(从125M到30B参数),并使用三个受试者的一个独立测试集进行相关性测量,来评估模型对大脑反应的预测性能。
效果:实验结果表明,大脑预测性能随着模型规模的对数增长而增长,其中编码性能提高了约15%。当扩大fMRI训练集的规模时,也观察到了类似的对数行为。此外,对于使用HuBERT、WavLM和Whisper的声学编码模型,也发现了与模型规模相当的改进。这些大型高性能编码模型的噪音上限分析显示,其性能已接近理论最大值,例如后扣带回和高级听觉皮层等大脑区域。这些结果暗示,增加模型和数据的规模将产生非常有效的大脑语言处理模型,从而促进科学理解和应用,如解码。
LIMA: Less Is More for Alignment
Chunting Zhou Pengfei Liu Puxin Xu Srini Iyer Jiao Sun Yuning Mao Xuezhe Ma Avia Efrat Ping Yu LILI YU Susan Zhang Gargi Ghosh Mike Lewis Luke Zettlemoyer Omer Levy
研究问题:大型语言模型的训练分为无监督预训练和大规模指令微调强化学习两个阶段,本研究旨在测量这两个阶段的重要性。
动机:通过训练650亿参数的LLaMa语言模型,仅使用1000个精心策划的提示和响应进行标准的有监督损失微调,无需任何强化学习或用户偏好建模,来了解这两个阶段的重要性。
方法:训练LIMA模型,该模型在训练数据中仅从少数示例中学习特定的响应格式,包括复杂的查询任务,如规划旅行路线和推测替代历史等。
效果:实验结果表明,LIMA模型表现出强大的性能,能够很好地泛化到未见过的任务。在一项受控的人类研究中,LIMA的响应在43%的情况下与GPT-4相当或更好;当与Bard和DaVinci003(使用人类反馈进行训练)相比时,这一比例分别高达58%和65%。这些结果强烈表明,大型语言模型中几乎所有的知识都是在预训练期间学习的,只需要有限的指令微调数据就可以教模型产生高质量的输出。
Dissecting Chain-of-Thought: Compositionality through In-Context Filtering and Learning
Yingcong Li Kartik Sreenivasan Angeliki Giannou Dimitris Papailiopoulos Samet Oymak
研究问题:本文旨在探讨链式思维(CoT)方法对语言模型处理复杂推理任务的影响,以及其背后的机制。
动机:尽管链式思维(CoT)在处理复杂推理任务上取得了成功,但其底层机制尚未完全理解。
方法:通过将CoT应用于transformers的上下文学习中,研究了其对多层感知器(MLPs)这种简单但通用的组合函数族的学习影响。
效果:研究发现,CoT的成功可以归因于将其分解为两个不同的阶段:关注和过滤与组合每一步相关的数据,以及上下文学习单步组合函数。实验和理论证据表明,CoT显著降低了上下文学习(ICL)的样本复杂度,并促进了对非CoT方法难以处理的复杂函数的学习。此外,我们还展示了transformers如何通过简单地添加执行CoT所需数据过滤的额外层,从普通的上下文学习过渡到掌握组合函数。除了这些测试时间的好处外,我们还发现CoT通过学习表示复杂函数的快捷方式来加速预训练,而过滤在这个过程中起着重要的作用。这些发现共同为我们提供了对CoT机制的理解,进一步探索了其在复杂推理任务中的作用。
Generating Images with Multimodal Language Models
Jing Yu Koh Daniel Fried Ruslan Salakhutdinov
研究问题:如何将冻结的文本大型语言模型(LLMs)与预训练的图像编码器和解码器模型进行融合,以实现跨模态的能力。
动机:目前的多模态语言模型在处理图像和文本输入时,往往无法生成连贯的图像(和文本)输出。因此,我们提出了一种新的方法,通过在它们的嵌入空间之间进行映射,将冻结的文本LLM与预训练的图像编码器和解码器模型进行融合。
方法:我们的方法首先通过一个高效的映射网络,将文本的隐藏表示转化为视觉模型的嵌入空间,从而利用LLM的强大文本表示能力来生成视觉输出。此外,我们还提出了一个学习决策模块,用于决定在推理时是检索还是生成图像。
效果:实验结果表明,我们的方法在处理更长、更复杂的语言任务时,优于基线生成模型。此外,我们的方法还能够从预指定的数据集中进行图像检索,并在推理时决定是检索还是生成图像。这种方法在多个测量上下文依赖性的文本到图像任务上,都优于非LLM基的生成模型。
Improving Language Plasticity via Pretraining with Active Forgetting
Yihong Chen Kelly Marchisio Roberta Raileanu David Ifeoluwa Adelani Pontus Stenetorp Sebastian Riedel Mikel Artetxe
研究问题:如何使预训练语言模型(PLMs)快速适应新的语言。
动机:尽管预训练语言模型在下游任务中表现优异,但在新语言的应用上存在困难,限制了其普适性。
方法:提出在预训练过程中使用主动遗忘机制,通过在每K次更新时重置嵌入层,鼓励模型在有限的更新次数内提高学习新嵌入的能力,类似于元学习效应。
效果:实验表明,使用遗忘机制预训练的模型不仅在新语言适应过程中表现出更快的收敛速度,而且在低数据量的情况下优于标准模型,尤其对于远离英语的语言。
RECKONING: Reasoning through Dynamic Knowledge Encoding
Zeming Chen Gail Weiss Eric Mitchell Asli Celikyilmaz Antoine Bosselut
研究问题:现有的基于transformer的语言模型在回答特定问题时,由于未对知识进行筛选,容易受到无关事实的干扰,导致推理失败。
动机:为了解决语言模型在回答问题时的推理失败问题,提高其区分必要知识和无关信息的能力。
方法:提出一种名为RECKONING的双层学习算法,通过将上下文知识编码到模型参数中,使模型能够使用更新后的参数回答问题。训练过程中,内循环快速调整模型权重以编码上下文知识;外循环则让模型学习使用更新后的权重来重现和回答关于记忆知识的推理问题。
效果:实验结果表明,RECKONING在三个不同类型的多跳推理数据集上的性能优于in-context reasoning基线(最高提升4.5%)。与in-context reasoning相比,RECKONING在未见过的长推理链上具有更好的泛化能力,对上下文中的干扰更具鲁棒性,并且在多个问题询问相同知识时具有更高的计算效率。
The Quantization Model of Neural Scaling
Eric J Michaud Ziming Liu Uzay Girit Max Tegmark
研究问题:本文旨在提出一种神经缩放定律的量化模型,以解释观察到的损失与模型和数据规模之间的幂律下降以及随着规模的突然新能力的出现。
动机:网络知识和技能被“量化”为离散块(量子),当量子按照使用频率的递减顺序学习时,观察到的损失的幂律缩放可以用使用频率的幂律来解释。
方法:通过语言模型梯度,我们将模型行为自动分解为一组多样化的技能(量子)。我们暂时发现这些量子在训练分布中的使用频率大致遵循与语言模型的经验缩放指数相对应的幂律,这是我们理论的一个预测。
效果:实验结果表明,该模型能够有效解释神经网络损失与模型和数据规模之间的幂律关系,并揭示出随着规模的增大,网络会突然出现新的功能。
Propagating Knowledge Updates to LMs Through Distillation
Shankar Padmanabhan Yasumasa Onoe Michael JQ Zhang Greg Durrett Eunsol Choi
研究问题:如何更新和传播现代语言模型中存储的知识,使其能够进行更广泛的推理?
动机:尽管现有的方法可以成功注入原子事实来更新知识,但更新后的模型无法基于注入的事实进行推理。
方法:本文提出了一种基于上下文 distillation 的方法,通过生成转移集并对转移集进行 distillation 来传递实体知识并使其能够进行更广泛的推理。
效果:实验表明,这种方法在传播知识更新方面比微调和其他基于梯度的知识编辑方法更有效,并且在其他上下文中的性能不会受到影响,即使一次注入多达150个实体的定义。
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent
Ziniu Hu Ahmet Iscen Chen Sun Kai-Wei Chang Yizhou Sun David A Ross Cordelia Schmid Alireza Fathi
研究问题:如何有效地回答需要外部知识的问题,如图像中建筑纪念的事件是什么?
动机:现有的视觉问答系统在处理需要外部知识的问题时,往往需要手动设计复杂的策略和决策过程。
方法:提出一种自主信息寻求的视觉问答框架AVIS,利用大型语言模型动态制定工具使用策略,并通过树搜索分析其输出,获取回答问题所需的关键知识。
效果:通过用户研究收集人类决策行为数据,设计出由计划器、推理器和工作记忆组件组成的系统。实验证明,AVIS在Infoseek和OK-VQA等基于知识的视觉问答基准测试上取得了最先进的结果。
Learning to Reason and Memorize with Self-Notes
Jack Lanchantin Shubham Toshniwal Jason E Weston Arthur Szlam Sainbayar Sukhbaatar
研究问题:大型语言模型在多步推理和保留先前推理步骤方面存在困难。
动机:提出一种允许模型进行自我记录的方法,以解决这两个问题。
方法:与最近的链式思维或临时存储方法不同,模型可以随时偏离输入上下文,明确思考并写下自己的想法。这使得模型在阅读上下文时能够即时进行推理,甚至整合先前的推理步骤,从而增强其记忆功能并实现多步推理。
效果:通过交替输入文本的自我记录,实验表明该方法可以超越链式思维和临时存储方法。
DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction
Mohammadreza Pourreza Davood Rafiei
研究问题:当前,大型语言模型在文本到SQL的复杂任务上的表现与微调模型和提示方法存在显著差距。
动机:为了提高大型语言模型在推理过程中的性能,我们研究了如何将任务分解为更小的子任务。
方法:我们将生成问题分解为多个子问题,并将这些子问题的解输入到大型语言模型中,以此有效提升其性能。
效果:实验结果显示,这种方法可以稳定地提升大型语言模型的简单几轮学习性能约10%,使准确率接近或超过最新技术。在Spider测试集上,该方法取得了85.3%的执行准确率,超过了之前的最佳结果79.9%。此外,在BIRD基准测试中,该方法实现了55.9%的执行准确率,创造了新的最好成绩。
Are Diffusion Models Vision-And-Language Reasoners?
Benno Krojer Elinor Poole-Dayan Vikram Voleti Christopher Pal Siva Reddy
研究问题:如何对基于扩散过程的文本条件图像生成模型进行自动精细定量评估。
动机:当前,基于扩散过程的文本条件图像生成模型在定性上取得了巨大成功,但在高级别的现象(如组合性)上进行自动精细定量评估仍是一个具有挑战性的任务。
方法:我们提出了两种创新方法。首先,我们使用一种新的方法“DiffusionITM”将扩散模型(在我们的案例中为“Stable Diffusion”)应用于任何图像-文本匹配(ITM)任务。其次,我们引入了具有7个复杂视觉和语言任务、偏差评估和详细分析的生成式鉴别性评估基准(GDBench)。
效果:我们发现,Stable Diffusion + DiffusionITM在许多任务上具有竞争力,并在CLEVR和Winoground等组合任务上优于CLIP。通过在保留生成能力的同时在MS-COCO上进行微调,我们进一步提高了其组合性能。我们还测量了扩散模型中的刻板印象偏见,发现Stable Diffusion 2.1在很大程度上比Stable Diffusion 1.5的偏见要小。总的来说,我们的研究结果为将鉴别性和生成性模型评估更紧密地联系在一起指明了一个令人兴奋的方向。
Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models
Ying Fan Olivia Watkins Yuqing Du Hao Liu Moonkyung Ryu Craig Boutilier Pieter Abbeel Mohammad Ghavamzadeh Kangwook Lee Kimin Lee
研究问题:如何通过人类反馈来改进文本到图像的模型。
动机:尽管已经有一些方法可以学习奖励函数以改进文本到图像的模型,但使用奖励函数进行微调仍然具有挑战性。
方法:提出了一种在线强化学习方法,将文本到图像的微调任务定义为一个强化学习问题,并使用策略梯度更新预训练的文本到图像扩散模型以最大化反馈训练的奖励。该方法被称为DPOK,它结合了策略优化和KL正则化。
效果:实验结果表明,DPOK在图像-文本对齐和图像质量方面通常优于有监督的微调。
Self-Refine: Iterative Refinement with Self-Feedback
Aman Madaan Niket Tandon Prakhar Gupta Skyler Hallinan Luyu Gao Sarah Wiegreffe Uri Alon Nouha Dziri Shrimai Prabhumoye Yiming Yang Shashank Gupta Bodhisattwa Prasad Majumder Katherine Hermann Sean Welleck Amir Yazdanbakhsh Peter Clark
研究问题:如何通过迭代反馈和自我修正提高大型语言模型的初始输出质量。
动机:受到人类如何改进书面文本的启发,提出一种通过迭代反馈和自我修正来提高大型语言模型初始输出质量的方法。
方法:首先使用大型语言模型生成一个初始输出,然后让同一个模型为其输出提供反馈并利用该反馈进行自我修正,这个过程会不断迭代。这种方法不需要任何监督训练数据、额外的训练或强化学习,而是使用单个大型语言模型作为生成器、修正器和反馈提供者。
效果:在7个不同的任务上评估了Self-Refine,包括对话响应生成和数学推理等,使用的是最先进的大型语言模型(GPT-3.5、ChatGPT和GPT-4)。在所有评估的任务中,使用Self-Refine生成的输出比使用相同大型语言模型进行传统一步生成的输出更受人类和自动指标的青睐,平均任务性能提高了约20%。这项工作表明,即使是最先进的大型语言模型(如GPT-4)也可以使用我们这种简单独立的测试时方法进行进一步的改进。
TART: A plug-and-play Transformer module for task-agnostic reasoning
Kush Bhatia Avanika Narayan Christopher De Sa Christopher Re
研究问题:大型语言模型是否具备任务无关的推理能力?
动机:尽管大型语言模型具有上下文学习的能力,但其在执行特定任务时的性能却始终低于任务特定的微调方法。
方法:提出TART方法,通过训练一个基于Transformer的推理模块来提高大型语言模型的推理能力,该模块使用合成逻辑回归任务进行训练,并与预训练模型无缝集成,无需额外训练。
效果:实验证明,TART可以显著提高不同模型家族、模型规模和任务的性能,并在RAFT基准测试中超越GPT-3的性能。
The Transient Nature of Emergent In-Context Learning in Transformers
Aaditya K Singh Stephanie C.Y. Chan Ted Moskovitz Erin Grant Andrew M Saxe Felix Hill
研究问题:本文探讨了Transformer神经网络在训练过程中的上下文学习(ICL)现象,并研究了其出现和消失的过程。
动机:尽管Transformer神经网络并未专门进行上下文学习的培训,但其却表现出了惊人的上下文学习能力。然而,现有的研究大多将ICL视为一种持久的现象,一旦出现就会持续存在。
方法:本文通过设计特定的合成数据,对Transformer神经网络进行训练,观察ICL和权重内学习(IWL)策略的出现、消失以及相互转换过程。
效果:实验结果显示,ICL在Transformer神经网络的训练过程中通常是短暂的,会先出现后消失,最终转变为IWL。这一发现对于如何“过度训练”Transformer以获得更紧凑、运行成本更低的模型提供了新的思考。同时,L2正则化可能为使ICL更持久提供了一条路径,从而消除了基于ICL风格的验证任务的早期停止需求。
Im-Promptu: In-Context Composition from Image Prompts
Bhishma Dedhia Michael Chang Jake Snell Thomas L. Griffiths Niraj Jha
研究问题:本文旨在探索语言模型的注意机制是否有助于类比推理,并进一步研究视觉刺激的可组合元素在上下文中的合成能力。
动机:大型语言模型通过少数示范就能解决各种任务,这暗示了其对任务的隐含理解可能与词令的注意力机制有关。同时,对于视觉刺激的上下文学习,合适的组合粒度通常是未指定的。
方法:本文提出了一个基于类比推理的上下文学习框架Im-Promptu,并通过训练具有不同组合粒度的多个代理(包括向量表示、补丁表示和对象插槽)来测试其泛化属性。
效果:实验结果显示,非组合表示可以将学到的组合规则扩展到未见过的区域,但在组合任务上表现不佳。补丁基础表示需要补丁包含整个对象才能进行稳健的外推。同时,对象中心的标记器与交叉注意力模块一起生成一致且高度保真的解决方案,这些归纳偏置对于组合泛化尤为重要。最后,作者展示了Im-Promptu作为直观的图像生成编程接口的应用案例。
A Logic for Expressing Log-Precision Transformers
William Merrill Ashish Sabharwal
研究问题:本文旨在探讨一种基于变换器的语言模型的逻辑推理能力,并尝试将其表达为一阶逻辑。
动机:最近的研究显示,有限精度的变换器分类器可以用一阶逻辑来表示,但这种变换器的能力有限。因此,作者想知道一个具有普遍注意力能力的更强大的模型是否也可以用逻辑来描述。
方法:作者分析了在上下文长度为n的情况下,前向传播计算在log n精度上的变换器。他们证明了任何log-precision变换器分类器都可以等价地表示为一个包含标准全称和存在量词以及多数投票量词的第一阶逻辑句子。
效果:这是已知的对log-precision变换器的最紧上限,也是第一次将log-precision变换器用逻辑来表征。
Analyzing Vision Transformers for Image Classification in Class Embedding Space
Martina G. Vilas Timothy Schaumlöffel Gemma Roig
研究问题:尽管变换模型在计算机视觉中的应用越来越广泛,但对这类网络的机制性理解仍然需要。
动机:受先前NLP研究的启发,本文介绍了一种方法来逆向工程用于解决图像分类任务的视觉变换器。
方法:通过将内部表示的任何级别的层次结构投影到学习的类别嵌入空间,揭示这些网络如何为其预测建立类别表示。
效果:结果显示,图像标记会根据注意力机制和上下文信息发展出特定于类别的表示,并且自注意力和MLP层对这种类别构成有显著的贡献。此外,该方法还可以确定检测感兴趣类别的重要部分,并显示出比传统线性探测方法有明显优势。
Taking the neural sampling code very seriously: A data-driven approach for evaluating generative models of the visual system
Suhas Shrinivasan Konstantin-Klemens Lurz Kelli Restivo George Denfield Andreas S. Tolias Edgar Y. Walker Fabian H. Sinz
研究问题:本文旨在解决当前知觉理论与神经生理数据之间缺乏精确对齐的问题,特别是在自然刺激下的神经活动记录。
动机:目前的知觉理论,如神经采样编码(NSC)理论,虽然在理论上优雅,但并未明确指定生成模型的具体形式,也未规定如何将理论与神经活动记录相联系。
方法:本文提出了一种新的NSC理论形式,可以直接拟合自然图像下记录的神经活动,形成更丰富、更灵活的生成模型,并使用标准指标对不同生成模型进行定量评估。
效果:通过在猕猴初级视觉皮层(V1)上对经典和灵活的深度学习生成模型进行比较,发现灵活的模型在生成模型和预测模型性能上都优于经典模型。这为知觉和行为的概率计算原理提供了实验性的理解。
Systematic Visual Reasoning through Object-Centric Relational Abstraction
Taylor Whittington Webb Shanka Subhra Mondal Jonathan Cohen
研究问题:本文旨在通过结合对象和关系提取显式表示,实现复杂视觉显示任务(包括具有更高视觉复杂度的新数据集CLEVR-ART)中的强系统性概括。
动机:人类视觉推理能够从少量示例中识别抽象模式,并将其系统地推广到新输入。这种能力在很大程度上取决于我们以对象和关系的方式表示复杂视觉输入的能力。
方法:本文引入了Object-Centric Relational Abstraction(OCRA)模型,该模型提取对象和抽象关系的显式表示,并在涉及复杂视觉显示的任务中实现强大的系统性概括。
效果:实验结果表明,OCRA模型在各种任务中表现出色,特别是在处理具有更高视觉复杂度的CLEVR-ART数据集时。
Goal Driven Discovery of Distributional Differences via Language Descriptions
Ruiqi Zhong Peter Zhang Steve Li Jinwoo Ahn Dan Klein Jacob Steinhardt
研究问题:如何有效地比较两个大型语料库之间的差异?
动机:人工探索大型语料库耗时且效率低下,因此需要自动发现差异的新任务。
方法:提出新任务D5,以目标驱动的方式自动发现两个大型语料库之间的差异。通过用户指定的研究目标和一对语料库进行输入,输出与目标相关的描述(发现),如两种药物的副作用有何不同。
效果:构建了D5系统,并通过合成数据集和真实数据集进行评估。实验证明,语言模型可以利用用户指定的目标来提出更相关的候选发现,有时还能产生作者未知的发现,如讨论主题的人口统计差异、演讲中的政治立场、商业评论中的洞察以及NLP模型的错误模式等。然而,目前的D5系统只能发现相关性而非因果关系,并有可能在误用时强化社会偏见,因此使用者应谨慎对待其输出结果。
VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models
Ziyi Yin Muchao Ye Tianrong Zhang Tianyu Du Jinguo Zhu Han Liu Jinghui Chen Ting Wang Fenglong Ma
研究问题:本文旨在探索视觉-语言预训练模型在黑箱微调模型上的对抗鲁棒性,特别是在现实情况下的对抗鲁棒性。
动机:现有的方法主要关注白盒设置下的对抗鲁棒性,这在实际中是不现实的。因此,本文提出了一个新的实用任务,即使用预训练的视觉-语言模型来攻击黑箱微调模型。
方法:为了实现这一目标,我们提出了VLATTACK框架,该框架通过融合来自单模态和多模态级别的图像和文本扰动来生成对抗样本。在单模态级别,我们提出了一种新的块状相似性攻击(BSA)策略来学习用于破坏通用表示的图像扰动。此外,我们还采用了一种现有的文本攻击策略来生成与图像模态攻击无关的文本扰动。在多模态级别,我们设计了一种新的迭代跨搜索攻击(ICSA)方法,该方法周期性地更新对抗图像-文本对,从单模态级别的输出开始。
效果:我们在八个数据集上针对三种广泛使用的视觉-语言预训练模型进行了六项任务的大量实验。实验结果表明,与最先进的基线相比,所提出的VLATTACK框架在所有任务上都实现了最高的攻击成功率,这表明预训练的视觉-语言模型在部署中存在一个重大盲点。
Brain encoding models based on multimodal transformers can transfer across language and vision
Jerry Tang Meng Du Vy A. Vo Vasudev Lal Alexander Huth
研究问题:本文旨在探索多模态转换器如何提供对大脑进行多模态处理的洞察。
动机:目前的编码模型通常在独立的情况下训练和测试大脑对每种模态的反应,而语言和视觉依赖于相似的概念表示。
方法:使用来自多模态转换器的表示来训练可以在故事和电影的fMRI反应之间转移的编码模型。
效果:研究发现,在一个模态的大脑反应上训练的编码模型可以成功预测另一个模态的大脑反应,特别是在代表概念意义的皮质区域。比较使用多模态和单模态转换器表示训练的编码模型,发现多模态转换器学习到的语言和视觉的概念表示更为一致。
Meet in the Middle: A New Pre-training Paradigm
Anh Tuan Nguyen Nikos Karampatziakis Weizhu Chen
研究问题:目前的大部分语言模型训练和应用都采用自回归的从左到右方式,忽视了训练过程中完整序列的存在。
动机:为了提高数据效率,本文提出了一种新的预训练模式“在中间相遇”(MIM),通过从左到右和从右到左两个方向进行训练,并鼓励各自的模型对每个位置的标记分布达成一致。
方法:主要成果是改进了从左到右的语言模型,同时也在填充任务中获得了次要收益。我们利用两个预训练的方向提出了一种同时从两边构建完成的填充过程。
效果:在编程和自然语言方面进行了广泛的实验,结果显示,MIM显著超越了现有的预训练模式,无论是在从左到右的生成还是在填充任务中。
Pengi: An Audio Language Model for Audio Tasks
Soham Deshmukh Benjamin Elizalde Rita Singh Huaming Wang
研究问题:当前音频处理模型无法完成开放性任务,如音频描述或问答。
动机:通过将音频任务转化为文本生成任务,利用迁移学习来开发新的音频语言模型。
方法:提出Pengi模型,该模型将输入的音频和文本编码为连续嵌入序列,然后与预训练的语言模型结合,无需额外的微调和特定任务扩展。
效果:在21个下游任务中,Pengi模型在多个任务上取得了最先进的性能,显示了语言模型与音频模型的结合是实现通用音频理解的重要步骤。
Beyond MLE: Convex Learning for Text Generation
Chenze Shao Zhengrui Ma Min Zhang Yang Feng
研究问题:本文旨在探讨在封闭的文本生成任务中,最大似然估计(MLE)并非总是必要和最优的,并提出一种新的基于凸函数的训练目标。
动机:在封闭的文本生成任务如机器翻译中,模型的目标是生成最合适的响应,而无需估计整个数据分布。因此,我们提出了一种基于凸函数的新型训练目标。
方法:我们提出了一种新的基于凸函数的训练目标,使文本生成模型能够专注于高概率输出,而无需估计整个数据分布。我们还研究了应用凸函数到损失时的最佳预测分布的理论性质。
效果:实验表明,这种方法可以显著提高各种文本生成任务和模型的效果,使自回归模型能够弥合贪婪搜索和束搜索之间的差距,并显著提高大型语言模型(LLMs)在各种任务上的生成能力。
Cognitive Steering in Deep Neural Networks via Long-Range Modulatory Feedback Connections
Talia Konkle George A. Alvarez
研究问题:如何使视觉模型具备人类一样的目标导向信息处理能力。
动机:目前的视觉模型缺乏对丰富视觉信息的充分利用,无法像人一样进行目标导向的信息处理。
方法:引入认知和生物启发的长距离调节路径,实现视觉模型的“认知引导”。
效果:实验结果表明,这种新的视觉模型在图像识别、对抗性鲁棒性和大脑匹配度上均优于基线模型,并在多类别复合图像的类别识别上取得了显著改进。
TIES-Merging: Resolving Interference When Merging Models
Prateek Yadav Derek Tam Leshem Choshen Colin Raffel Mohit Bansal
研究问题:如何有效地合并多个预训练模型,以构建一个可以执行多种任务的多任务模型。
动机:现有的模型合并技术在合并多个特定任务模型时,往往会忽视不同模型参数之间的干扰,导致性能大幅下降。
方法:提出TrIm, Elect Sign & Merge (TIES-Merging)方法,通过重置微调过程中变化小的参数、解决符号冲突以及只合并与最终一致符号的参数等三个步骤来合并模型。
效果:TIES-Merging在各种情况下都优于现有方法,包括不同的模态、领域、任务数量、模型大小、架构和微调设置。进一步分析发现,不同类型的干扰对模型参数的影响不同,符号的重要性突出,并且使用验证数据估计符号可以进一步提高性能。
Joint processing of linguistic properties in brains and language models
SUBBA REDDY OOTA Manish Gupta Mariya Toneva
研究问题:理解人类大脑对语言信息详细处理与语言模型的对应关系。
动机:为了更深入地了解这种对应关系,需要消除语言模型表示中与特定语言属性相关的信息,并观察这如何影响与参与者听故事时获得的fMRI脑记录的对齐。
方法:通过直接的方式,即在语言模型表示中消除与特定语言属性相关的信息,并观察其对齐效果。
效果:研究发现,每种语言属性(表面、句法和语义)的消除都会导致大脑对齐显著下降。具体来说,句法属性(即顶级成分和树深度)对模型层间的大脑对齐趋势影响最大。这些发现为大脑和语言模型之间的对应关系提供了明确的证据,并为映射两者的信息处理开辟了新的途径。
ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation
Jiazheng Xu Xiao Liu Yuchen Wu Yuxuan Tong Qinkai Li Ming Ding Jie Tang Yuxiao Dong
研究问题:如何从人类偏好反馈中学习和改进文本到图像的模型。
动机:现有的文本到图像模型缺乏对人类偏好的有效编码,需要一种更有效的方法来优化这些模型。
方法:构建了ImageReward模型,这是一种通用的文本到图像人类偏好奖励模型,通过系统的注释管道进行训练,包括评级和排名,收集了137k专家比较数据。同时,提出了奖励反馈学习(ReFL)算法,这是一种直接优化扩散模型的调优算法。
效果:实验结果表明,ImageReward在人类评估中优于现有的评分模型和指标,使其成为评估文本到图像合成的有希望的自动指标。同时,人类和自动评估都支持ReFL优于比较方法。所有代码和数据集都可以在提供的网址中找到。
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis
Fuzhao Xue Yao Fu Wangchunshu Zhou Zangwei Zheng Yang You
研究问题:大型语言模型在预训练阶段对数据量的需求巨大,但高质量网络文本数据可能接近其扩展极限。如何进一步提升大型语言模型的性能?
动机:通过重复使用预训练数据进行额外的训练周期,可以作为一种直接提升大型语言模型性能的方法。
方法:本研究对此方法进行了实证研究,探索了重复预训练数据的后果,发现模型容易过拟合,导致多周期退化。同时,研究了导致多周期退化的关键因素,包括数据集大小、模型参数和训练目标等。
效果:研究发现,虽然大多数正则化技术对缓解多周期退化效果不明显,但dropout表现出显著的效果。此外,利用专家混合(MoE)可以有效地为计算密集型的大型语言模型进行成本效益高的超参数调整,有可能在更广泛的范围内影响高效的大型语言模型开发。
Parts of Speech–Grounded Subspaces in Vision-Language Models
James Oldfield Christos Tzelepis Yannis Panagakis Mihalis Nicolaou Ioannis Patras
研究问题:现有的视觉-语言模型的潜图像表示对于各种下游任务非常有用,但其效用受到不同视觉属性之间纠缠的限制。
动机:近期的研究表明,CLIP的图像表示往往以不可预测的方式偏向特定的视觉属性(如物体或动作)。
方法:通过利用词性与特定视觉变化模式(如名词关联物体,形容词描述外观)之间的关联,在CLIP的联合视觉-语言空间中分离不同视觉模态的表示。这通过形成一个适当的成分分析模型来实现,该模型学习捕获与特定词性相对应的可变性的子空间,同时最小化对其余部分的可变性。
效果:这种子空间产生了封闭形式的不同图像或文本的不同视觉属性的解缠表示,同时尊重表示所基于的流形的几何结构。此外,我们展示了提出的模型还有助于学习对应于特定视觉外观(如艺术家的绘画风格)的子空间,这使得能够从基于CLIP的文本到图像合成中选择性地移除整个视觉主题。我们在定性上通过使用一个文本到图像模型可视化子空间投影并防止模仿艺术家的风格来验证模型,并在定量上通过类别不变性度量和对基线零射击分类的改进来进行验证。
Diffused Redundancy in Pre-trained Representations
Vedant Nanda Till Speicher John P Dickerson Krishna P. Gummadi Soheil Feizi Adrian Weller
研究问题:本文旨在探究预训练神经网络在大规模数据集上学习到的特征编码方式。
动机:作者发现预训练神经网络的某一层中,学习到的表示存在一定程度的扩散冗余性,即任意一个随机选择的、大于某一阈值的神经元子集与整个层的相似度很高,且在各种下游任务上的表现也与整个层相当。
方法:作者在ImageNet1k和ImageNet21k上对不同的神经网络架构(包括CNNs和Transformers)进行预训练,并评估了VTAB基准测试集中的各种下游任务。
效果:预训练过程中的损失和数据集在很大程度上决定了扩散冗余的程度,而“关键质量”神经元的数量通常取决于下游任务,这表明存在一种任务固有的冗余-性能帕累托最优边界。这些发现揭示了预训练深度神经网络所学习表示的性质,并表明对于许多下游任务来说,可能并不需要整个层来完成。
Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?
Arjun Majumdar Karmesh Yadav Sergio Arnaud Yecheng Jason Ma Claire Chen Sneha Silwal Aryan Jain Vincent-Pierre Berges Tingfan Wu Jay Vakil Pieter Abbeel Jitendra Malik Dhruv Batra Yixin Lin Oleksandr Maksymets Aravind Rajeswaran Franziska Meier
研究问题:本文旨在对预训练视觉表示(PVRs)或视觉“基础模型”进行最大规模和最全面的实证研究。
动机:目前对于预训练视觉表示的研究尚无统一的主导模型,同时,预训练数据的规模和多样性对性能的影响尚不明确。
方法:作者创建了CortexBench数据集,包含17个不同的任务,覆盖了移动、导航、灵巧和机动操作等领域。然后,通过使用掩蔽自动编码(MAE)在来自7个不同来源的4000多小时的自我中心视频(超过430万张图像)和ImageNet上训练不同规模的视觉变压器,来系统地评估现有的PVRs。
效果:结果显示,扩大数据集规模和多样性并不能普遍提高性能(但平均而言确实有所提高)。作者的最大模型VC-1在所有PVR中平均表现最好,但也没有普遍占优。此外,任务或领域特定的VC-1适应可以带来显著的收益,VC-1(适应)在所有CortexBench基准测试中实现了竞争或优越的性能。最后,在真实世界的硬件实验中,VC-1和VC-1(适应)超过了现有最强的PVR。总的来说,本文虽然没有提出新的技术,但是进行了严格的系统评估,得出了一系列关于PVRs的发现(在某些情况下,与先前在狭窄领域中的工作相反),并为研究社区提供了开源代码和模型(需要超过1万个GPU小时进行训练)。
AmadeusGPT: a natural language interface for interactive animal behavioral analysis
Shaokai Ye Jessy Lauer Mu Zhou Alexander Mathis Mackenzie W Mathis
研究问题:如何将自然语言描述的动物行为转化为机器可执行的代码,并解决大型语言模型在理解复杂上下文时的限制。
动机:为了弥补动物行为分析中对动物行为理解和机器学习知识的需要,以及大型语言模型在处理长对话记忆上的限制。
方法:提出了AmadeusGPT,一个自然语言接口,可以将自然语言描述的行为转化为机器可执行的代码。同时,通过引入一种新的双记忆机制,允许短时记忆和长时记忆之间的通信,以克服大型语言模型在处理长对话记忆上的限制。
效果:使用MABe 2022行为挑战任务进行基准测试,结果显示AmadeusGPT表现出色。此系统将深度学习知识、大型语言模型和核心计算机视觉模块融合在一起,形成一个更自然的智能系统。
Large language models implicitly learn to straighten neural sentence trajectories to construct a predictive representation of natural language.
Eghbal A. Hosseini Evelina Fedorenko
研究问题:本文旨在探索预测性目标如何塑造自回归变压器模型的语言表示。
动机:受视觉神经科学研究的启发,作者测试了关于自回归变压器模型预测性表示的假设。
方法:通过量化1维曲率指标,研究句子中词序列的神经网络轨迹是否随着网络层数的增加而逐渐变直。
效果:研究发现,训练后的模型中,曲率从网络的第一层到中间层逐渐减小;在大型数据集上训练的大型模型表现出更大的曲率减小,这可能解释了它们在语言建模性能上的优势;此外,模型生成的序列的曲率低于真实值,表明模型倾向于使用更直的轨迹进行预测。这些结果支持轨迹变直假设,并提供了自回归模型内部表示几何形状如何支持下一个词预测的可能机制。
Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design
Ibrahim Alabdulmohsin Xiaohua Zhai Alexander Kolesnikov Lucas Beyer
研究问题:如何通过推理计算最优的模型形状,如宽度和深度,以优化视觉转换器的性能?
动机:现有的方法主要通过增加模型的大小来提高性能,但这种方法可能会导致计算成本的增加。因此,需要一种更有效的方法来优化模型的形状。
方法:本文提出了一种新的方法,通过推理计算最优的模型形状,包括宽度和深度,并将这种方法应用到视觉转换器中。
效果:实验结果表明,这种方法可以有效地优化视觉转换器的性能,使其在多个任务上的表现超过了更大的模型,同时计算成本也大大降低。
Meta-in-context learning in large language models
Julian Coda-Forno Marcel Binz Zeynep Akata Matthew Botvinick Jane X Wang Eric Schulz
研究问题:本文旨在探讨大型语言模型的元上下文学习能力,即通过上下文学习本身来递归提高其性能。
动机:目前的预训练语言模型在各种任务上表现出色,其中上下文学习是其主要贡献者之一。本文试图通过元上下文学习进一步提升这种能力。
方法:本文提出了一种新的方法,通过推理计算最优的模型形状,包括宽度和深度,并将这种方法应用到视觉转换器中。
效果:实验结果表明,这种方法可以有效地优化视觉转换器的性能,使其在多个任务上的表现超过了更大的模型,同时计算成本也大大降低。
ASIF: Coupled Data Turns Unimodal Models to Multimodal without Training
Antonio Norelli Marco Fumero Valentino Maiorca Luca Moschella Emanuele Rodolà Francesco Locatello
研究问题:本文旨在解决在无需显式训练的情况下,如何通过创建共享空间来解决许多视觉任务。
动机:当前的图像和文本编码器需要从大量数据集中进行训练,但本文提出了一种无需任何训练就可以创建共享空间的方法。
方法:使用单领域编码器(有监督或无监督训练)和少量图像-文本对来创建共享空间。
效果:实验结果表明,该方法在标准的零样本视觉基准测试中表现出了典型的图像-文本模型的转移能力,为基础多模态模型提供了一个简单但强大的基线,并引发了关于其数据效率和检索在机器学习中的作用的重要问题。
Visual Programming for Step-by-Step Text-to-Image Generation and Evaluation
Jaemin Cho Abhay Zala Mohit Bansal
研究问题:如何利用语言模型进行视觉模块的控制,以实现文本到图像(T2I)的生成和评估。
动机:现有的工作主要集中在让语言模型具备视觉理解能力,而我们提出了两种新的可解释/可解释的视觉编程框架,用于T2I生成和评估。
方法:我们首先引入VPGen,这是一个可解释的逐步T2I生成框架,它将T2I生成分解为三个步骤:对象/数量生成、布局生成和图像生成。我们使用一个语言模型来处理前两个步骤(对象/数量生成和布局生成),通过在文本-布局对上进行微调。我们的逐步T2I生成框架提供了比端到端模型更强的空间控制能力。其次,我们利用预训练语言模型的世界知识,克服了先前布局引导的T2I工作只能处理预定义对象类别的限制。
效果:我们的VPGen在对象的数量/空间关系/比例方面比最先进的T2I生成模型具有更好的控制能力。其次,我们引入VPEval,这是一个基于视觉编程的解释性和可解释性的T2I生成评估框架。与以前使用单个评分模型的T2I评估不同,该模型在某些技能上准确,但在其他技能上不可靠,VPEval产生的评估程序调用一组在不同技能上是专家的视觉模块,并提供了视觉+文本的解释结果。我们的分析表明,对于特定技能和开放式提示,VPEval比广泛使用的单一模型基线提供了更与人类相关的评估。
Trial matching: capturing variability with data-constrained spiking neural networks
Christos Sourmpis Carl C. H. Petersen Wulfram Gerstner Guillaume Bellec
研究问题:如何揭示神经活动和行为之间的相互作用?
动机:同时记录行为和电生理信号需要新的方法来揭示神经活动和行为之间的相互作用。
方法:使用大规模循环脉冲神经网络(RSNN)对小鼠皮质感觉运动通路进行建模,并通过基于梯度的优化适应记录。
效果:通过最优传输定义生成和记录试验分布之间的距离,该方法应用于人工数据和覆盖六个皮层区域的神经记录。结果表明,生成的RSNN可以产生真实的皮层活动并预测颌部运动。
On Evaluating Adversarial Robustness of Large Vision-Language Models
Yunqing Zhao Tianyu Pang Chao Du Xiao Yang Chongxuan Li Ngai-man Cheung Min Lin
研究问题:大型视觉语言模型(VLMs)在响应生成方面取得了卓越性能,但多模态生成加剧了安全顾虑,因为对手可能通过微妙地操纵最脆弱的模态(如视觉)来成功规避整个系统。
动机:为了解决这一问题,我们提出了在最真实和高风险的环境中评估开源大型VLMs的鲁棒性,即对手只有黑盒系统访问权限并试图欺骗模型返回目标响应。
方法:我们首先针对预训练模型(如CLIP和BLIP)制作有针对性的对抗性示例,然后将这些对抗性示例转移到其他VLMs(如MiniGPT-4、LLaVA、UniDiffuser、BLIP-2和Img2Prompt)。此外,我们发现对这些VLMs进行黑盒查询可以进一步提高针对性逃避的效果,从而在生成目标响应方面取得令人惊讶的高成功率。
效果:我们的发现为大型VLMs的对抗性脆弱性提供了定量理解,并呼吁在实际应用部署之前对其潜在的安全漏洞进行更彻底的检查。
The Learnability of In-Context Learning
Noam Wies Yoav Levine Amnon Shashua
研究问题:现代大型语言模型在没有修改权重的情况下,如何通过包含下游自然语言任务的训练示例来调整其性能。
动机:尽管这种新兴的学习范式对大型语言模型的许多实际应用产生了破坏性影响,但从理论角度来说,人们对此并不十分了解。
方法:本文提出了一种基于PAC的首次框架用于上下文可学习性,并使用它为上下文学习设置提供了第一个有限的样本复杂性结果。
效果:我们的理论分析表明,在这种设置下,上下文学习更多的是关于识别任务,而不是学习任务,这一结果与一系列最近的实证发现相一致。我们希望本文提出的上下文可学习性框架将有助于进一步理解这种重要的新学习范式。
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
Wenliang Dai Junnan Li Dongxu Li Anthony Tiong Junqi Zhao Weisheng Wang Boyang Li Pascale Fung Steven Hoi
研究问题:构建通用的视觉语言模型由于丰富的输入分布和任务多样性,以及额外的视觉输入,具有挑战性。
动机:尽管视觉语言预训练已被广泛研究,但基于预训练BLIP-2模型的视觉语言指令微调仍待探索。
方法:我们收集了26个公开可用的数据集,涵盖了各种任务和能力,并将它们转换为指令微调格式。此外,我们还引入了一种指令感知的查询转换器,用于提取针对给定指令的有用特征。
效果:在13个保持数据集上进行训练后,InstructBLIP在所有13个保持数据集中都取得了最先进的零样本性能,大大超过了BLIP-2和更大的Flamingo模型。我们的模型在个别下游任务上也取得了最先进的性能(例如,在带有图像上下文的ScienceQA问题上达到90.7%的准确率)。此外,我们还定性地展示了InstructBLIP相对于同时期多模态模型的优势。所有InstructBLIP模型都是开源的。
Composing Parameter-Efficient Modules with Arithmetic Operation
Jinghan Zhang Shiqi Chen Junteng Liu Junxian He
研究问题:如何有效地利用预训练语言模型进行参数效率微调,以适应不同的领域和任务。
动机:传统的完全微调方法效率低下,参数效率微调(PEFT)作为替代方案正在成为主流,但其模块间的整合能力有待提高。
方法:提出在权重空间中通过线性算术运算来组合这些参数效率模块,无需额外训练即可实现高度灵活的模块组合。
效果:实验证明,该方法能产生新的、有效的参数效率模块,在所有设置中都显著优于现有的模块。
Soft-Unification in Deep Probabilistic Logic
Jaron Maene Luc De Raedt
研究问题:神经符号AI的一个基本挑战是如何设计融合逻辑和神经网络概念的原始操作。
动机:现有的系统如Neural Theorem Prover并未满足软统一操作的非冗余性、定义明确的证明分数和非稀疏梯度等理想属性,因此需要一种更原则性的框架。
方法:提出了基于概率而非模糊语义的DeepSoftLog框架。
效果:实验表明,DeepSoftLog在神经符号基准测试中的表现优于现有技术,突显了这些属性的优势。
Lift Yourself Up: Retrieval-augmented Text Generation with Self-Memory
Xin Cheng Di Luo Xiuying Chen Lemao Liu Dongyan Zhao Rui Yan
研究问题:如何通过更好的记忆来提高文本生成任务的效果。
动机:传统的内存检索方法受限于固定语料库的质量,无法充分利用人类编写的参考记忆。
方法:提出一种新的框架selfmem,通过迭代使用检索增强的生成器创建一个无限制的内存池,并使用内存选择器选择一个输出作为后续生成轮次的记忆,从而利用自身的输出(称为自我记忆)来改进生成效果。
效果:在三个不同的文本生成任务上评估selfmem的效果,包括神经机器翻译、抽象文本摘要和对话生成,并在两个生成范例下实现最先进的结果。
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset
Sihan Chen Handong Li Qunbo Wang Zijia Zhao Mingzhen Sun Xinxin Zhu Jing Liu
研究问题:本文旨在探索视频中视觉、音频和字幕等多模态信息与文本的联系,并建立相应的模型。
动机:当前的视频-文本基础模型主要关注了视觉和文本两种模态,而音频和字幕等其他模态的信息尚未得到充分关注。
方法:通过收集2700万个开放领域的视频片段,分别训练视觉和音频的字幕生成器,然后利用预训练的大型语言模型将生成的字幕、字幕和指令提示整合为全模态的字幕。基于提出的VAST-27M数据集,训练一个能够感知和处理视频中的视觉、音频和字幕模态的全模态视频-文本基础模型VAST。
效果:实验表明,VAST在各种跨模态基准测试中取得了22个新的最先进的结果。
Guiding Large Language Models via Directional Stimulus Prompting
Zekun Li Baolin Peng Pengcheng He Michel Galley Jianfeng Gao Xifeng Yan
研究问题:如何引导大型语言模型(LLMs)生成特定期望的输出?
动机:现有的直接调整LLMs的方法存在挑战,因此需要一种新方法来优化LLMs的行为。
方法:提出了一种新的框架——方向性刺激提示(Directional Stimulus Prompting),通过小型可调策略模型为每个输入实例生成辅助的方向性刺激提示,作为微妙的、针对特定实例的提示和线索,引导LLMs生成期望的结果。
效果:在摘要生成、对话响应生成和思维链推理等任务上进行评估,实验表明,该方法可以显著提高LLMs的性能,如ChatGPT、Codex和InstructGPT,并且在使用最小量标注数据的情况下,性能优于一些最先进的全监督模型。
Foundation Model is Efficient Multimodal Multitask Model Selector
Fanqing Meng Wenqi Shao zhanglin peng Chonghe Jiang Kaipeng Zhang Yu Qiao Ping Luo
研究问题:如何预测预训练神经网络在多模态任务上的性能,而无需进行微调。
动机:现有的方法要么计算量大(如全量微调),要么依赖于特定任务的先验知识(如轻量化度量),不适合多模态多任务场景。
方法:提出一种高效的多任务模型选择器(EMMS),利用大型基础模型将不同下游任务的多种标签格式统一为噪声标签嵌入,通过加权线性回归估计模型的迁移性。
效果:在5个下游任务、24个数据集上的大量实验表明,EMMS快速有效,能够评估预训练模型的迁移性,是首个适用于多任务场景的模型选择方法。例如,与最先进的LogME方法相比,EMMS在图像识别、参照、描述、视觉问答和文本问答任务上分别提高了9.0%、26.3%、20.1%、54.8%和12.2%的性能,同时计算时间分别加快了5.13倍、6.29倍、3.59倍、6.19倍和5.66倍。代码可在https://github.com/OpenGVLab/Multitask-Model-Selector获取。
Visual Instruction Inversion: Image Editing via Image Prompting
Thao Nguyen Yuheng Li Utkarsh Ojha Yong Jae Lee
研究问题:如何有效地描述图像编辑操作。
动机:语言在描述特定图像编辑时可能存在模糊性和无效性,需要更直观的方式传达想法。
方法:提出一种通过视觉提示进行图像编辑的方法,利用文本到图像扩散模型的预训练编辑能力,将视觉提示转换为编辑指令。
效果:实验表明,只需一个示例对,就可以达到与最先进的文本条件图像编辑框架相竞争的结果。
Complex Query Answering on Eventuality Knowledge Graph with Implicit Logical Constraints
Jiaxin Bai Xin Liu Weiqi Wang Chen Luo Yangqiu Song
研究问题:如何利用深度学习方法查询知识图谱,进行逻辑推理和泛化学习,以更好地回答问题。
动机:传统的神经网络复杂查询回答(CQA)方法主要在实体为中心的知识图谱上工作,但在现实世界中,我们还需要对事件、状态和活动(即事态或情况)进行逻辑推理,以推动学习系统从系统I到系统II的发展。
方法:本文提出了一个新的框架,利用神经网络方法基于事态为中心的知识图谱(EVKG)来回答复杂的逻辑查询,不仅满足传统的一阶逻辑约束,还能满足关于事态发生和顺序的隐含逻辑约束。
效果:实验结果表明,该方法在各种知识驱动任务上取得了显著改进,并在其他常见的NLP任务上与最先进的BERT模型相媲美。
Exploring Diverse In-Context Configurations for Image Captioning
Xu Yang Yongliang Wu Mingzhuo Yang Haokun Chen Xin Geng
研究问题:探索不同的配置方式对视觉语言(VL)上下文学习的影响。
动机:图像标题作为可视条件下的语言模型,其上下文学习具有多模态协同的独特特性,而现有方法仅采用随机抽样的方式配置图像-文本对进行上下文学习。
方法:设计了四种图像选择策略和四种标题分配策略来配置图像-文本对进行图像标题生成任务的上下文学习。
效果:通过全面实验发现,优化的配置方式相较于基准线平均提升了20.9%的CIDEr分数,揭示了VL上下文学习的多模态协同特性。
Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions
Kai Liu Zhihang Fu Chao Chen Sheng Jin Ze Chen Mingyuan Tao Rongxin Jiang Jieping Ye
研究问题:如何通过联合训练大规模文本语料库和知识图谱,构建一种可以充分利用词汇、句法和知识的增强语言表示模型。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,而知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱进行联合训练,构建ERNIE模型,以更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
What Makes Good Examples for Visual In-Context Learning?
Yuanhan Zhang Kaiyang Zhou Ziwei Liu
研究问题:如何更好地利用大型视觉模型进行上下文学习。
动机:大型视觉模型具有巨大的潜力,但参数量大且难以调整,通常只有API可供使用。
方法:通过上下文学习的视角,提出了一种提示检索框架,用于自动选择视觉上下文示例,无需访问大型视觉模型的内部权重。
效果:实验证明,该方法比常用的随机选择能带来显著的改进,提高了视觉上下文学习的性能。
Embroid: Unsupervised Prediction Smoothing Can Improve Few-Shot Classification
Neel Guha Mayee F Chen Kush Bhatia Azalia Mirhoseini Frederic Sala Christopher Re
研究问题:如何在不增加额外标注数据的情况下改进基于提示的学习?
动机:改善提示需要大量的标注数据,但修改预测可能不需要。
方法:提出Embroid方法,通过计算不同嵌入函数下的数据集的多个表示,并利用LM对相邻样本的预测一致性来识别错误预测。然后使用这些邻域为每个样本创建额外的预测,并将这些预测与简单的潜在变量图形模型结合以生成最终的校正预测。
效果:在六个不同的LM和多达95个不同的任务上进行了严格的实证评估。发现Embroid显著提高了原始提示的性能(例如,在GPT-JT上平均提高了7.3分),并且对于更复杂的提示策略(如思维链)也实现了改进,还可以通过嵌入函数专门针对法律等领域进行优化。
Large Language Models as Commonsense Knowledge for Large-Scale Task Planning
Zirui Zhao Wee Sun Lee David Hsu
研究问题:如何有效地进行大规模任务规划?
动机:现有的方法在大规模任务规划上面临挑战,而大型语言模型(LLMs)具有巨大的潜力。
方法:本文提出一种新的LLM-MCTS算法,将LLM作为世界模型和策略来指导搜索,以提升任务规划的效率和效果。
效果:实验表明,新的LLM-MCTS算法在复杂、新颖的任务上表现优于单独的MCTS和仅使用LLM作为策略的方法。
FACE: Evaluating Natural Language Generation with Fourier Analysis of Cross-Entropy
Zuhao Yang Yingfang Yuan Yang Xu SHUO ZHAN Huajun Bai Kefan Chen
研究问题:如何衡量机器生成语言与人类语言的距离。
动机:受到心理语言学关于语言熵周期性的实证发现启发,提出一种基于估计交叉熵语言的傅里叶分析的度量标准FACE,用于测量模型生成语言与人类写作语言的相似性。
方法:通过开放性生成任务和以往研究的实验数据,我们发现FACE可以有效地识别人机差距,随模型规模扩大而扩大,反映不同解码采样方法的结果,与其他评估指标和人类判断分数高度相关。
效果:FACE能有效衡量机器生成语言与人类语言的距离,并反映出模型的规模、解码采样方法的影响以及与人类判断的相关性。
Tuning Multi-mode Token-level Prompt Alignment across Modalities
Dongsheng Wang Miaoge Li Xinyang Liu MingSheng Xu Bo Chen Hanwang Zhang
研究问题:如何优化视觉语言模型的提示调优,以增强开放世界视觉概念理解。
动机:目前的视觉语言模型在提示调优上主要关注单一模式和整体语义对齐,这无法捕捉到样本的多样性,导致提示发现的效果不佳。
方法:提出一种多模式的基于传输学习的提示调优框架,通过学习跨模态的一组提示标记进行对齐。具体包括多模式提示发现和标记级对齐两个关键步骤。
效果:实验表明,该方法在流行的图像识别基准测试中表现出优越的泛化能力和少样本学习能力,且学习到的提示标记能够捕获多样化的视觉概念。
Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering
Weizhe Lin Jinghong Chen Jingbiao Mei Alexandru Coca Bill Byrne
研究问题:如何提高基于知识库的视觉问答系统(KB-VQA)中的知识检索效果。
动机:现有的RA-VQA系统在处理KB-VQA任务时,存在图像到文本转换获取的图像表示不完整且不准确,以及查询和文档之间的相似度分数计算一维嵌入,对细粒度相似性不敏感的问题。
方法:提出一种细粒度的晚期交互多模态检索(FLMR),通过一个简单的对齐网络,使用与现有基于文本的检索器对齐的视觉模型来获取补充图像到文本转换的图像表示。同时,使用多维嵌入编码图像和问题,以捕获查询和文档之间的细粒度相似性。
效果:FLMR显著提高了原始RA-VQA检索器的PRRecall@5约8%,并在OK-VQA数据集上实现了约62%的VQA得分。
Rethinking the Role of Token Retrieval in Multi-Vector Retrieval
Jinhyuk Lee Zhuyun Dai Sai Meher Karthik Duddu Tao Lei Iftekhar Naim Ming-Wei Chang Vincent Y Zhao
研究问题:本文旨在简化多向量检索模型,通过重新思考标记检索的作用来改善信息检索。
动机:现有的多向量检索模型如ColBERT虽然在许多信息检索基准测试中取得了最先进的效果,但其非线性评分函数无法扩展到数百万个文档,需要通过三个阶段进行推理:通过标记检索获取初始候选者,访问所有标记向量,并对初始候选文档进行评分。这个过程复杂且缓慢。
方法:本文提出了XTR(Contextualized Token Retriever),引入了一个简单的、新颖的目标函数,鼓励模型首先检索最重要的文档标记。改进的标记检索使XTR能够仅使用检索到的标记对候选者进行排名,而无需使用文档中的所有标记,并实现了一种比ColBERT便宜两到三个数量级的新设计的评分阶段。
效果:在流行的BEIR基准测试中,XTR将最先进的技术推进了2.8 nDCG@10,没有任何蒸馏过程。详细的分析证实了我们重新审视标记检索阶段的决定,因为与ColBERT相比,XTR在标记检索阶段的召回率要高得多。
Preference-grounded Token-level Guidance for Language Model Fine-tuning
Shentao Yang Shujian Zhang Congying Xia Yihao Feng Caiming Xiong Mingyuan Zhou
研究问题:如何将语言模型与序列级别的偏好对齐,以解决自然语言生成中的重要问题。
动机:由于偏好通常在序列级别提供,而语言模型的训练和生成都在标记级别进行,因此存在粒度不匹配的问题,可能使学习问题复杂化。
方法:开发一种替代训练过程,通过将序列级别的偏好转化为标记级别的训练指导,并使用学到的指导来改进语言模型。设计了一个框架,将模仿学习中的成对偏好学习扩展到可变长度的语言模型生成和多个生成之间的偏好利用。
效果:实验结果表明,该方法在离散提示生成和文本摘要两个代表性的语言模型任务上表现良好。
Multi-Head Adapter Routing for Cross-Task Generalization
Lucas Caccia Edoardo Ponti Zhan Su Matheus Pereira Nicolas Le Roux Alessandro Sordoni
研究问题:本文旨在探讨适配器路由在跨任务泛化中的作用,并基于发现设计新的变体。
动机:当前的参数高效微调方法(PEFT)通过在多任务训练集上预训练适配器,然后进行少次样本的测试任务适应。Polytropon [Ponti et al., 2023]($\texttt{Poly}$)同时学习适配器库存和选择每个任务的适配器子集的路由函数。
方法:我们提出多头路由(MHR),它结合了适配器参数的子集,并在相似的参数预算下优于$\texttt{Poly}$;通过只微调路由函数而不微调适配器($texttt{MHR}$-$z$),我们实现了极高的参数效率和竞争性能。
效果:我们发现,$\texttt{Poly}$/$\texttt{MHR}$的性能是更好的多任务优化的结果,而不是之前假设的促进适配器重组和局部适应的模块化归纳偏置。实际上,我们发现$\texttt{MHR}$在训练任务之间表现出高度的梯度对齐。我们还发现,路由在多任务预训练期间最有益,而不是在少次样本适应期间,因此我们提出了$\texttt{MHR}$-$\mu$,它丢弃路由并在每个下游任务上微调预训练适配器的平均值。这确立了$\texttt{MHR}$-$\mu$作为单适配器微调的有效方法。我们还表明,通过在多任务训练集上对预训练适配器的平均值进行额外的几步训练,$\texttt{MHR}$-$\mu$可以用作有效的零样本转移方法:这比基线获得了高达3%的绝对精度增益。代码可在https://github.com/microsoft/mttl获取。
Explainable Brain Age Prediction using coVariance Neural Networks
Saurabh Sihag Gonzalo Mateos Corey McMillan Alejandro Ribeiro
研究问题:如何利用大脑成像数据来预测个体的“脑年龄”,并解决现有算法缺乏透明度和方法论证的问题。
动机:脑年龄与实际年龄的差距(称为“脑年龄差距”)可以反映由于不良健康状况导致的加速老化,进而反映出对神经性疾病或认知障碍的增加脆弱性。然而,由于大多数现有的脑年龄预测算法缺乏透明度和方法论证,因此阻碍了脑年龄在临床决策支持中的广泛应用。
方法:本文提出了一种解释驱动和解剖可解释的框架,使用皮层厚度特征进行脑年龄预测。具体来说,我们的脑年龄预测框架不仅局限于阿尔茨海默病中的大脑年龄差距这一粗略指标,而且我们做出了两个重要观察:(i)VNNs可以通过识别贡献大脑区域,为AD中提高的大脑年龄差距提供解剖学上的可解释性;(ii)VNNs提供的可解释性取决于它们利用解剖学协方差矩阵特定特征向量的能力。这些观察结果为脑年龄预测任务提供了一种可解释和解剖上可解释的视角。
效果:实验结果表明,该方法能够有效地预测脑年龄,并且具有很好的解剖学可解释性。
GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule Zero-Shot Learning
Haiteng Zhao Shengchao Liu Chang Ma Hannan Xu Jie Fu Zhi-Hong Deng Lingpeng Kong Qi Liu
研究问题:本文旨在解决分子性质预测中由于昂贵的实验导致的标签不足的问题,以及如何更好地利用文本知识进行任务。
动机:现有的分子-文本模型在零样本设置下表现不佳,主要原因是对指令处理不足和对图形的容量有限。
方法:提出了GIMLET模型,该模型统一了图形和文本的语言模型。通过采用通用位置嵌入,我们的模型可以在不增加额外图形编码模块的情况下编码图形结构和指令文本。GIMLET还通过注意力机制将图形特征的编码与任务指令解耦,增强了图形特征在新任务上的泛化能力。
效果:实验结果表明,GIMLET在基于指令的零样本学习上显著优于分子-文本基线,甚至在如toxcast和muv等任务上达到了接近监督GNN模型的效果。
Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
Ida Momennejad Hosein Hasanbeig Felipe Vieira Frujeri Hiteshi Sharma Nebojsa Jojic Hamid Palangi Robert Ness Jonathan Larson
研究问题:本文旨在解决当前大型语言模型(LLMs)缺乏系统性评估的问题,以及其在规划任务中存在的明显失败模式。
动机:大部分关于LLMs认知能力的研究依赖于轶事证据、训练集的污染或缺乏系统的评估,包括多任务、控制条件、多次迭代和统计鲁棒性测试。
方法:本文提出了一个受认知科学启发的协议CogEval,用于对LLMs的认知能力进行系统评估。同时,作者还根据人类实验设计了任务提示,以评估规划能力和在LLM训练集中不存在的任务。
效果:虽然LLMs在一些结构较简单的规划任务中表现出明显的胜任能力,但系统的评估揭示了其在规划任务中的显著失败模式,包括无效轨迹的幻觉和陷入循环。这些发现并不支持LLMs具有出现即用型规划能力的观点。这可能是因为LLMs不理解规划问题背后的潜在关系结构(称为认知地图),并且无法基于该结构展开目标导向的轨迹。
Self-Evaluation Guided Beam Search for Reasoning
Yuxi Xie Kenji Kawaguchi Yiran Zhao Xu Zhao Min-Yen Kan Junxian He Qizhe Xie
研究问题:大型语言模型在多步推理中存在不确定性和误差累积的问题。
动机:为了解决多步推理中的不确定性问题,提出了一种逐步自我评估机制来指导和校准大型语言模型的推理过程。
方法:通过随机束搜索整合了自我评估指导的解码算法。自我评估指导作为一种更精确的自动标准,有助于在推理空间中进行有效搜索,从而提高预测质量。随机束搜索通过温度控制的随机性平衡了搜索空间的利用和探索。
效果:该方法在GSM8K、AQuA和StrategyQA基准测试上分别比相应的Codex基础线高出6.34%、9.56%和5.46%的少次准确度。在算术推理方面的实验结果也显示,该方法在同等计算预算下优于基础方法。进一步的多步推理分析发现,自我评估指导能够准确找出逻辑错误,提高一致性和鲁棒性。
Three Towers: Flexible Contrastive Learning with Pretrained Image Models
Jannik Kossen Mark Collier Basil Mustafa Xiao Wang Xiaohua Zhai Lucas Beyer Andreas Peter Steiner Jesse Berent Rodolphe Jenatton Effrosyni Kokiopoulou
研究问题:如何通过结合预训练的图像分类器来改进视觉-语言模型的对比学习。
动机:当前的对比学习方法通常从零开始训练,而利用预训练的分类器嵌入可以提升性能。然而,直接替换图像塔为冻结嵌入可能会排除对比训练的潜在好处。
方法:提出了一种灵活的策略,即引入包含冻结预训练嵌入的第三个塔,并鼓励这个第三塔与主要的图像-文本塔之间的对齐。
效果:实验结果表明,该方法在检索任务上始终优于LiT和CLIP风格的从零开始基线,对于分类任务,除了在JFT预训练模型上表现稍逊于LiT外,在其他如ImageNet-21k和Places365预训练上都超过了LiT的表现。
Rewrite Caption Semantics: Bridging Semantic Gaps for Language-Supervised Semantic Segmentation
Yun Xing Jian Kang Aoran Xiao Jiahao Nie Ling Shao Shijian Lu
研究问题:现有的视觉语言预训练模型在语义对齐上存在明显的问题,即图像中的许多视觉概念在配对的文本中缺失。
动机:为了解决这一问题,我们提出了一种名为“Concept Curation(CoCu)”的方法,通过建立概念档案和利用视觉驱动的扩展以及文本到视觉的引导排名来弥补缺失的语义。
方法:对于每一张图像-文本对,我们建立一个概念档案,通过集群引导采样和提供相关的概念来填补视觉和文本语义之间的鸿沟。
效果:实验结果表明,CoCu在广泛的8个分割基准测试中实现了优秀的零样本转移性能,大大提高了语言监督分割基线的性能,证明了在预训练数据中填补语义差距的价值。
A Theory of Unsupervised Translation Motivated by Understanding Animal Communication
Shafi Goldwasser David Gruber Adam Tauman Kalai Orr Paradise
研究问题:本文旨在探讨在没有平行翻译和源语与目标语领域不相关或语言结构不同的情况下,无监督机器翻译(UMT)的分析框架。
动机:随着神经网络在无监督机器翻译方面取得进展,人们开始关注是否可以利用机器学习工具来理解动物交流,特别是高度智能动物的交流。
方法:提出了一个理论框架,用于分析在没有平行翻译和源语与目标语领域不相关或语言结构不同的情况下的无监督机器翻译。通过两个风格化的语言模型进行示例说明,并提供了理论上的必要样本复杂度界限。
效果:实验结果表明,错误率与语言复杂度和共同点数量呈反比。这表明,如果交流系统足够复杂,无监督的动物交流翻译可能是可行的。
Beyond Deep Ensembles: A Large-Scale Evaluation of Bayesian Deep Learning under Distribution Shift
Florian Seligmann Philipp Becker Michael Volpp Gerhard Neumann
研究问题:本文旨在系统地评估现代贝叶斯深度学习(BDL)算法在真实世界数据集上的表现,特别是在分布转移下的准确性和校准性。
动机:尽管贝叶斯深度学习是实现分布转移数据上准确预测的有前景的方法,但目前还没有大规模的调查来系统地评估最新的SOTA方法在多样化、现实和挑战性的基准任务上的表现。
方法:我们在WILDS集合中的真实世界数据集上评估了现代BDL算法,这些数据集包含具有挑战性的分类和回归任务,重点关注泛化能力和分布转移下的校准。我们比较了各种大型的卷积神经网络和基于变压器的神经网络架构上的算法。
效果:我们发现,通过集成单模近似值通常可以显著提高模型的泛化能力和校准性,但我们也发现了当微调大型变压器基础的语言模型时,集成的失败模式。在这种情况下,基于变分推理的方法,如last-layer Bayes By Backprop,在准确性方面比其他方法高出很多,而现代近似推理算法如SWAG在校准方面表现最好。
ANPL: Towards Natural Programming with Interactive Decomposition
Di Huang Ziyuan Nan Xing Hu Pengwei Jin Shaohui Peng Yuanbo Wen Rui Zhang Zidong Du Qi Guo Yewen Pu Yunji Chen
研究问题:如何有效地与预训练语言模型进行交互,以进一步修改程序。
动机:目前的预训练语言模型虽然能生成合理的程序,但用户很难根据特定的需求对生成的程序进行修订。
方法:本文介绍了一种交互式编程系统ANPL,该系统通过结构化分解确保用户可以通过精确的代码(如Python)表达控制/数据流的“草图”和用自然语言描述待实现的“孔”(子模块)来不断优化生成的代码。
效果:在抽象推理语料库(ARC)等具有挑战性的任务上,ANPL表现出色,优于无法交互式分解任务和不能保证模块正确组合的基准编程系统。在APPS、HumanEval和真实世界编程任务上的额外评估也验证了ANPL框架适用于多个编程领域。
GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph
Xin Li Dongze Lian Zhihe Lu Jiawang Bai Zhibo Chen Xinchao Wang
研究问题:如何利用适配器风格的高效迁移学习(ETL)在低数据量的情况下优化视觉语言模型(VLMs)的性能。
动机:大多数适配器风格的作品存在两个限制,一是仅用单一模态对任务特定知识进行建模,二是忽视了下游任务中类别间关系的利用,导致解决方案次优。
方法:提出一种有效的适配器风格调优策略,命名为GraphAdapter,通过建立双知识图谱来显式建模文本和视觉模态的双模态结构知识,从而提升每个提示的文本特征。
效果:在11个基准数据集上的大量实验结果表明,GraphAdapter显著优于先前的适配器基方法。
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
Wenhai Wang Zhe Chen Xiaokang Chen Jiannan Wu Xizhou Zhu Gang Zeng Ping Luo Tong Lu Jie Zhou Yu Qiao Jifeng Dai
研究问题:如何利用大型语言模型(LLMs)在计算机视觉领域实现开放性任务的能力?
动机:尽管存在强大的视觉基础模型(VFMs),但在计算机视觉领域中,它们仍然受限于预定义的任务形式,无法与大型语言模型(LLMs)的开放性任务能力相匹配。
方法:提出了一个基于LLM的视觉任务框架,称为VisionLLM。该框架通过将图像视为外语,并将视觉中心任务与可以通过语言指令灵活定义和管理的语言任务对齐,为视觉和语言任务提供了统一的视图。然后,基于LLM的解码器可以根据这些指令进行适当的预测以完成开放性任务。
效果:实验表明,提出的VisionLLM可以通过语言指令实现不同级别的任务定制,从细粒度的对象级别到粗粒度的任务级别,所有结果都很好。值得注意的是,使用通用的LLM框架,我们的模型在COCO上实现了超过60%的mAP,与专门的检测模型相当。我们希望这个模型能为通用的视觉和语言模型设定一个新的基线。代码将被发布。
What You See is What You Read? Improving Text-Image Alignment Evaluation
Michal Yarom Yonatan Bitton Soravit Changpinyo Roee Aharoni Jonathan Herzig Oran Lang Eran Ofek Idan Szpektor
研究问题:自动判断文本和图像是否在语义上对齐是视觉语言模型的一个重大挑战,应用在生成文本到图像和图像到文本的任务中。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:我们介绍了两种自动确定对齐的方法:第一种是基于问题生成和视觉问答模型的管道,第二种是通过微调多模态预训练模型进行端到端分类。这两种方法在各种文本-图像对齐任务上都超过了先前的方法,并在涉及复杂组合或非自然图像的挑战性情况下取得了显著的改进。
效果:实验结果表明,我们的方法可以定位图像和给定文本之间的特定不对齐,并可以用于自动重新排序文本到图像生成的候选者。
Chatting Makes Perfect: Chat-based Image Retrieval
Matan Levy Rami Ben-Ari Nir Darshan Dani Lischinski
研究问题:本文旨在解决现有的图像检索方法大多只处理单个查询-图像的交互,而忽视了聊天在图像检索中的应用。
动机:鉴于当今基础模型的能力,我们利用大型语言模型生成与初始图像描述的后续问题,通过与用户的对话框从大量语料库中检索所需的图像。
方法:我们构建了一个基于聊天的图像检索系统ChatIR,该系统通过与用户进行对话来获取额外的信息以明确用户的搜索意图。
效果:实验结果表明,通过进行对话可以显著提高图像检索的成功率。在5轮对话后,我们的系统能从50K张图片中成功检索到目标图片,成功率超过78%,而人类提问的成功率为75%,单次文本到图像检索的成功率为64%。
LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation
Yujie Lu Xianjun Yang Xiujun Li Xin Eric Wang William Yang Wang
研究问题:现有的文本到图像合成自动评估只能提供图像-文本匹配分数,没有考虑到对象级别的组合性,这导致与人类判断的相关性较差。
动机:为了解决上述问题,我们提出了LLMScore,这是一个新的框架,可以提供具有多粒度组合性的评估分数。
方法:LLMScore利用大型语言模型(LLMs)来评估文本到图像的模型。首先,它将图像转化为图像级别和对象级别的视觉描述。然后,将评估指令输入到LLMs中,以测量合成图像和文本之间的对齐程度,最终生成一个伴随有理有据的分数。
效果:我们的实证分析显示,在各种数据集(属性绑定对比、概念联合、MSCOCO、DrawBench、PaintSkills)上,LLMScore与人类判断的最高相关性。值得注意的是,我们的LLMScore与人类评价的Kendall's tau相关性比常用的文本-图像匹配指标CLIP和BLIP分别高出58.8%和31.2%。
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face
Yongliang Shen Kaitao Song Xu Tan Dongsheng Li Weiming Lu Yueting Zhuang
研究问题:如何利用大型语言模型(LLMs)作为控制器,管理现有的AI模型来解决复杂的AI任务。
动机:尽管存在许多适用于不同领域和模态的AI模型,但它们无法自主处理复杂的AI任务。考虑到大型语言模型在语言理解、生成、交互和推理方面表现出色,我们主张大型语言模型可以作为控制器来管理现有的AI模型以解决复杂的AI任务,其中语言作为一种通用接口来实现这一目标。
方法:我们提出了HuggingGPT,这是一个由大型语言模型驱动的代理,它利用大型语言模型(如ChatGPT)将机器学习社区中的各种AI模型(如Hugging Face)连接起来解决AI任务。具体来说,当接收到用户请求时,我们使用ChatGPT进行任务规划,根据Hugging Face中可用的模型功能描述选择模型,用选定的AI模型执行每个子任务,并根据执行结果总结响应。
效果:通过利用ChatGPT强大的语言能力和Hugging Face中的丰富AI模型,HuggingGPT能够处理跨越不同模态和领域的广泛复杂AI任务,并在语言、视觉、语音和其他具有挑战性的任务中取得令人印象深刻的结果,为实现人工智能开辟了新的道路。
Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models
Lin Li Jun Xiao Guikun Chen Jian Shao Yueting Zhuang Long Chen
研究问题:如何利用预训练的视觉语言模型进行零样本视觉识别,特别是在关系检测任务中。
动机:现有的使用CLIP进行零样本视觉识别的方法存在一些弱点,如难以区分精细的关系类型,忽视了两个物体的空间信息。
方法:提出一种新的方法RECODE,通过组合描述提示解决关系检测问题。首先将每个谓词类别分解为主体、对象和空间组件,然后利用大型语言模型为每个组件生成基于描述的提示(或视觉线索)。不同的视觉线索从不同的角度增强了相似关系类别的可区分性,从而显著提高了VRD的性能。
效果:在四个VRD基准测试上的大量实验表明,RECODE具有有效性和可解释性。
Intriguing Properties of Quantization at Scale
Arash Ahmadian Saurabh Dash Hongyu Chen Bharat Venkitesh Zhen Stephen Gou Phil Blunsom Ahmet Üstün Sara Hooker
研究问题:量化性能下降是否仅仅是规模的问题?
动机:最近的研究表明,量化性能的下降是大模型中的一种涌现特性。本研究旨在探究这种特性是否仅由规模决定。
方法:通过对不同规模的模型进行优化和量化,我们发现异常维度并不是规模的产物,而是对预训练期间存在的优化条件敏感。
效果:我们成功地对从4.1亿到52亿参数范围的模型进行了量化,性能下降最小。
InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural Language Understanding
Junda Wu Tong Yu Rui Wang Zhao Song Ruiyi Zhang Handong Zhao Chaochao Lu Shuai Li Ricardo Henao
研究问题:如何提高软提示调优的性能和鲁棒性。
动机:目前的软提示调优方法对初始提示敏感,且无法充分从提示令牌中学习任务相关信息。
方法:提出一种基于信息论的框架,将软提示调优视为最大化提示与其他模型参数(或编码表示)之间的互信息。并开发两种新的互信息损失函数,用于探索适当的任务提示初始化和鼓励预训练语言模型的输出表示更关注在提示中学到的任务相关信息。
效果:实验证明,该方法可以显著加速提示调优的收敛速度,并优于传统的提示调优方法。
Large Language Models of Code Fail at Completing Code with Potential Bugs
Tuan Dinh Jinman Zhao Samson Tan Renato Negrinho Leonard Lausen Sheng Zha George Karypis
研究问题:现有的大规模语言模型在代码补全任务中忽视了代码上下文可能存在的bug,这在软件开发中是不可避免的。
动机:受实时代码建议这一现实场景的启发,我们引入并研究了存在潜在bug的代码补全问题。
方法:我们引入了两个数据集:一个是从语义改变的操作符变化中提取的合成bug(buggy-HumanEval),另一个是从用户提交给编程问题的bug中提取的真实bug(buggy-FixEval)。我们发现潜在的bug显著降低了高性能的Code-LLMs的生成性能。
效果:例如,给定上下文中的一个潜在bug,CODEGEN-2B-MONO在buggy-HumanEval测试用例上的通过率下降了50%以上。最后,我们调查了几种后处理方法来减轻潜在bug的负面影响,发现后处理性能仍存在很大差距。
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning
Alexander H. Liu Heng-Jui Chang Michael Auli Wei-Ning Hsu James R. Glass
研究问题:本文旨在介绍自我蒸馏和在线聚类在自我监督语音表示学习中的应用。
动机:通过结合掩蔽语言模型、自我蒸馏和在线聚类,提出了一种新的语音表示学习方法。
方法:首先,使用教师网络从输入音频中提取上下文嵌入;然后,对嵌入进行在线聚类以生成机器发现的音素库存;最后,使用离散化的标记指导学生网络。
效果:实验结果表明,DinoSR在几个下游任务上超过了先前最先进的性能,并对模型和学习的离散单元进行了详细分析。
Neural Algorithmic Reasoning Without Intermediate Supervision
Gleb Rodionov Liudmila Prokhorenkova
研究问题:本文旨在解决神经网络算法推理中的一项主要挑战,即如何让模型泛化到分布外的数据,特别是输入规模显著较大的数据。
动机:现有的工作都是通过学习算法的每一步来解决这个问题,但这种方法需要对原始算法的轨迹进行监督。本文则尝试从输入-输出对中学习神经网络算法推理,不依赖中间监督。
方法:本文提出了一些简单但有效的架构改进,并构建了一个自我监督的目标,可以在没有访问算法轨迹的情况下规范模型的中间计算。
效果:实验结果表明,本文的方法在CLRS算法推理基准测试中的任务上具有竞争力,并在排序等几个问题上取得了新的最优结果。因此,无需中间监督的学习是神经网络推理器进一步研究的一个有希望的方向。
Does Visual Pretraining Help End-to-End Reasoning?
Chen Sun Calvin Luo Xingyi Zhou Anurag Arnab Cordelia Schmid
研究问题:本文旨在通过视觉预训练,探索能否用通用神经网络实现端到端的视觉推理学习。
动机:当前普遍的观点认为显式的视觉抽象(如物体检测)对于视觉推理的组合泛化至关重要,本文试图证明神经网络“通才”也能解决视觉识别和推理任务,以反驳这一观点。
方法:提出了一种简单且通用的自监督框架,利用转换器网络将每个视频帧压缩为一组小的标记,然后根据压缩的时序上下文重构剩余的帧。为了最小化重构损失,网络必须学习每个图像的紧凑表示,同时从时序上下文中捕捉时序动态和物体持久性。
效果:在两个视觉推理基准测试——CATER和ACRE上进行评估,发现预训练对于实现端到端视觉推理的组合泛化至关重要。所提出的框架在传统的有监督预训练(包括图像分类和显式物体检测)方面取得了大幅度的优越性能。
Unlimiformer: Long-Range Transformers with Unlimited Length Input
Amanda Bertsch Uri Alon Graham Neubig Matthew R. Gormley
研究问题:现有的transformer模型由于需要关注输入的每一个标记,因此其输入长度有限。
动机:提出一种通用方法Unlimiformer,将任意预训练的编码器-解码器transformer进行封装,并将跨注意力计算卸载到单个k近邻(kNN)索引上,同时返回的kNN距离就是注意力点积得分。
方法:在GPU或CPU内存中保存kNN索引,并在次线性时间内查询;这样,我们可以索引实际上无限长的输入序列,而每个解码器层中的每个注意力头都会检索其前k个键,而不是关注每一个键。
效果:在几个长文档和书籍总结基准测试中评估Unlimiformer,表明它可以处理BookSum数据集中的500k个标记长的输入,在测试时无需任何输入截断。通过扩展预训练模型如BART和Longformer到无限输入,无需额外的学习权重和修改代码,展示了Unlimiformer的改进效果。
Geodesic Multi-Modal Mixup for Robust Fine-Tuning
Changdae Oh Junhyuk So Hoyoon Byun YongTaek Lim Minchul Shin Jong-June Jeon Kyungwoo Song
研究问题:本文旨在解决预训练多模态模型(如CLIP)的嵌入分析相对未探索,以及其嵌入转移性可以改进的问题。
动机:尽管预训练的多模态模型(如CLIP)在各种应用中表现出色,但其学习到的多模态嵌入的分析相对较少,且嵌入的转移性仍有待提高。
方法:通过观察发现CLIP为两种不同模态保留了分离的嵌入子空间,然后通过“一致性-对齐”的视角来测量学习到的表示的质量。理论和实验均表明,即使在微调后,CLIP仍然保持较差的一致性和对齐性。因此,我们设计了一种新的微调方法以获得更好的对齐和一致性的稳健表示。
效果:我们在检索、校准、小样本或零样本分类(分布偏移下)、嵌入算术和图像描述等任务上进行了广泛的实验,进一步证明我们的方法提供了可转移的表示,使模型能够在多样化的任务上进行稳健的适应。
What’s Left? Concept Grounding with Logic-Enhanced Foundation Models
Joy Hsu Jiayuan Mao Joshua B. Tenenbaum Jiajun Wu
研究问题:如何让大型语言模型在不同的领域中进行通用的、基于逻辑的推理?
动机:现有的基于大型语言模型的视觉推理模型仅在有限的领域(如2D图像)中有效,无法充分利用语言的一般性,例如“*left*”这样的抽象概念也可以在3D、时间、动作数据中找到依据。
方法:提出一种逻辑增强的基础模型(LEFT),该模型通过可微分的、与领域无关的一阶逻辑程序执行器来学习和适应新的领域。
效果:LEFT模型可以灵活地学习四个领域的知识,并在各种复杂任务中表现出强大的推理能力,包括那些在训练期间未见过的任务,并且可以轻松应用于新领域。
Language Model Tokenizers Introduce Unfairness Between Languages
Aleksandar Petrov Emanuele La Malfa Philip Torr Adel Bibi
研究问题:尽管最近的多语言模型表现令人印象深刻,但其在不同语言处理上的质量存在差异。
动机:这种差异主要源于分词阶段的不同处理方式,而这一问题在训练时就已存在。
方法:本文提出使用多语言公平的子词分词器来训练未来的语言模型。
效果:通过使用多语言公平的分词器,可以减小不同语言处理上的差异,提高模型的公平性。
MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal Image Generation
Marco Bellagente Manuel Brack Hannah Benita Teufel Felix Friedrich Björn Deiseroth Constantin Eichenberg Andrew Dai Robert John Nicholas Baldock Souradeep Nanda Koen Oostermeijer Andres Felipe Cruz-Salinas Patrick Schramowski Kristian Kersting Samuel Weinbach
研究问题:如何利用预训练模型和多模态、多语言输入,提高文本到图像生成模型的性能。
动机:现有的文本到图像生成模型在处理复杂或微妙的概念时存在困难,需要一种能够处理多模态、多语言输入的模型。
方法:提出MultiFusion模型,通过预训练模型对各模块进行对齐,整合成一个连贯的系统,无需从头开始进行大量训练。
效果:实验结果表明,所有独立组件的融合使得图像生成模块能够利用多语言、交错的多模态输入,尽管其在单一语言的单模态数据上进行训练。
Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks
Minki Kang Seanie Lee Jinheon Baek Kenji Kawaguchi Sung Ju Hwang
研究问题:大型语言模型在知识密集推理任务上表现出色,但在实际部署中存在计算需求高和数据隐私问题。
动机:针对此问题,本文提出了一种新方法——知识增强推理蒸馏(KARD),通过从外部知识库获取增强的知识来微调小型语言模型生成推理。
方法:首先,使用大型语言模型生成推理;然后,利用外部知识库增强这些推理;最后,通过神经重排器获取与推理生成相关的文档。
效果:实验表明,KARD显著提高了小型T5和GPT模型在具有挑战性的知识密集推理数据集(如MedQA-USMLE、StrategyQA和OpenbookQA)上的性能。特别是在MedQA-USMLE和StrategyQA基准测试中,250M参数的T5模型的表现优于30亿参数的fine-tuned模型。
Textually Pretrained Speech Language Models
Michael Hassid Tal Remez Tu Anh Nguyen Itai Gat Alexis Conneau Felix Kreuk Jade Copet Alexandre Défossez Gabriel Synnaeve Emmanuel Dupoux Roy Schwartz Yossi Adi
研究问题:如何利用预训练的文本语言模型来训练语音语言模型。
动机:目前的语音语言模型在没有文本监督的情况下处理和生成声学数据,效果不理想。
方法:提出TWIST方法,通过从预训练的文本语言模型进行热启动来训练语音语言模型。
效果:实验结果表明,TWIST在所有方面都优于冷启动的语音语言模型,且模型设计和数据集规模对构建性能更好的语音语言模型起着重要作用。
Uncovering and Quantifying Social Biases in Code Generation
Yan Liu Xiaokang Chen Yan Gao Zhe Su Fengji Zhang Daoguang Zan Jian-Guang Lou Pin-Yu Chen Tsung-Yi Ho
研究问题:本研究旨在探索预训练代码生成模型中的社会偏见问题。
动机:随着自动代码生成工具如Copilot的普及,这些工具可能带来的危害的研究越来越重要。
方法:我们提出了一种新的构建代码提示的模式,以揭示代码生成模型中的社会偏见。我们还开发了一个数据集和三个指标来量化生成代码的社会偏见严重程度。
效果:在实验中,我们发现三种不同规模的预训练代码生成模型(Codex、InCoder和CodeGen)都存在严重的社会偏见。此外,我们的分析为选择具有低社会偏见的代码生成模型提供了有用的洞察。
Language Is Not All You Need: Aligning Perception with Language Models
Shaohan Huang Li Dong Wenhui Wang Yaru Hao Saksham Singhal Shuming Ma Tengchao Lv Lei Cui Owais Khan Mohammed Barun Patra Qiang Liu Kriti Aggarwal Zewen Chi Johan Bjorck Vishrav Chaudhary Subhojit Som Xia Song Furu Wei
研究问题:如何实现语言、多模态感知、行动和世界建模的大融合,以迈向人工通用智能。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks
Haoyi Duan Yan Xia Mingze Zhou Li Tang Jieming Zhu Zhou Zhao
研究问题:现有的大规模预训练模型在多模态任务中提取特征时,由于引入了无关的模态特定信息,导致性能不佳。
动机:为了解决这一问题,本文提出了一种新的双引导空间-通道-时间(DG-SCT)注意力机制。
方法:该机制利用音频和视觉模态作为软提示,根据当前的多模态输入特征动态调整预训练模型的参数。具体来说,DG-SCT模块将可训练的跨模态交互层纳入预训练的音视频编码器,允许从当前模态中自适应地提取关键信息,同时保留大规模预训练模型的冻结参数。
效果:实验评估表明,我们的模型在多个下游任务中取得了最先进的结果,包括AVE、AVVP、AVS和AVQA。此外,我们的模型在具有挑战性的少样本和零样本场景中也表现出良好的性能。
FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning
Kun Song Huimin Ma Bochao Zou Huishuai Zhang Weiran Huang
研究问题:由于数据有限,现有的从零开始训练的少次学习(few-shot learning)方法无法达到满意的性能。
动机:与从零开始训练的方法不同,大规模预训练模型如CLIP显示出了卓越的少次和零次学习能力。然而,预训练模型在面对分布偏移时,其泛化能力会下降,而少次学习中有限的样本数量使得模型容易过拟合。
方法:本文提出了一种称为特征鉴别对齐(Feature Discrimination Alignment, FD-Align)的微调方法。该方法通过保持微调过程中伪特征的一致性来增强模型的泛化能力。
效果:大量的实验结果验证了我们的方法在识别(ID)和异常检测(OOD)任务上的有效性。微调后的模型可以无缝地集成到现有的方法中,从而提高性能。
Learning-to-Rank Meets Language: Boosting Language-Driven Ordering Alignment for Ordinal Classification
Rui Wang Pei Pei Li Huaibo Huang Chunshui Cao Ran He Zhaofeng He
研究问题:本文旨在解决序数分类中标签的额外排序关系导致的过拟合问题。
动机:由于序数分类的标签包含额外的排序关系,仅依赖训练数据容易导致过拟合。受预训练视觉-语言模型的启发,作者希望通过将原始任务转化为视觉-语言对齐任务来利用人类语言中的丰富序数先验知识。
方法:提出了一种名为L2RCLIP的语言驱动排序对齐方法。首先,引入了一种名为RankFormer的补充提示调优技术,用于增强原始排名提示的排序关系。其次,为了进一步融入语言先验知识,重新审视了朴素交叉熵损失的近似边界优化,并在跨模态嵌入空间内对其进行了重构。因此,提出了一种跨模态序数成对损失来细化CLIP特征空间,使文本和图像在语义对齐和排序对齐方面都保持一致。
效果:在三个序数分类任务上进行了大量实验,包括面部年龄估计、历史彩色图像(HCI)分类和美学评估,证明了其良好的性能。
Improving Compositional Generalization using Iterated Learning and Simplicial Embeddings
Yi Ren Samuel Lavoie Mikhail Galkin Danica J. Sutherland Aaron Courville
研究问题:如何提高深度神经网络的组合泛化能力,使其能够推广到未见过的潜在因素组合。
动机:人类可以轻松地完成组合泛化,但深度神经网络却很难做到。受认知科学中“迭代学习”过程的启发,研究者提出通过在具有简单嵌入式模型上进行迭代学习来改进深度网络的组合泛化能力。
方法:使用简单嵌入式模型并应用迭代学习的方法,将表示近似离散化,以提高其组合泛化能力。
效果:这种结合的改变在视觉任务和未知潜在结构的真实分子图预测任务上都表现出比其他方法更好的组合泛化能力。
Punctuation-level Attack: Single-shot and Single Punctuation Can Fool Text Models
Wenqiang Wang Chongyang Du Tao Wang Kaihao Zhang Wenhan Luo Lin Ma Wei Liu Xiaochun Cao
研究问题:本文旨在提出一种新的文本攻击模式——标点符号级攻击,并设计了一种名为“文本位置标点嵌入和释义”(TPPEP)的搜索方法来加速寻找最佳攻击位置。
动机:现有的文本攻击模型主要通过添加字符/词/句子级别的扰动来欺骗模型,忽视了它们对人类感知的影响。
方法:通过插入、移位、删除和替换等不同类型的扰动,实现了对典型文本任务的SOTA模型的高欺骗率,并通过单个标点的简单扰动,保持了对人类感知和理解文本的最小影响。同时,提出了一种名为“文本位置标点嵌入和释义”的搜索方法,以加速寻找最佳攻击位置。
效果:实验结果在公开数据集和SOTA模型上证明了标点符号级攻击和提出的TPPE的有效性。此外,将单个标点符号攻击应用于摘要、语义相似性评分和文本到图像的任务,取得了令人鼓舞的结果。
Thrust: Adaptively Propels Large Language Models with External Knowledge
Xinran Zhao Hongming Zhang Xiaoman Pan Wenlin Yao Dong Yu Jianshu Chen
研究问题:如何有效地将外部知识引入预训练语言模型,以提高其在各种NLP任务上的性能。
动机:尽管预训练语言模型可以编码丰富的知识,但其内在的知识可能是不透明的或静态的,因此需要引入外部知识。然而,现有的信息检索技术可能成本高昂,甚至可能引入噪声和误导性的知识。
方法:提出了一种实例级的自适应外部知识推进(IAPEK)方法,只在必要时进行检索。为了实现这一目标,我们提出了一种新的度量标准——Thrust,它利用少量已见实例的表示分布来评估预训练语言模型在解决实例问题上的知识能力。
效果:实验表明,Thrust是一种衡量模型实例级知识能力的好方法。此外,我们发现,与直接使用外部知识相比,使用Thrust分数作为检索指标可以在88%的评估任务上实现更高的成本效益,平均性能提高了26%。这些发现为计算延迟或成本限制下的知识增强语言模型的实际应用提供了启示。
RRHF: Rank Responses to Align Language Models with Human Feedback
Hongyi Yuan Zheng Yuan Chuanqi Tan Wei Wang Songfang Huang Fei Huang
研究问题:如何通过人类反馈来强化大型语言模型,提高人与模型之间的互动质量。
动机:现有的强化学习方法(如PPO)在实施过程中对超参数敏感,且需要多个模型,难以进行训练和扩大规模。
方法:提出一种新的学习范式——RRHF,通过条件概率的对数对不同来源的样本响应进行评分,并通过排名损失学习将这些概率与人类偏好对齐。
效果:RRHF只需要1到2个模型进行调优,无需复杂的超参数调整,就能有效地将语言模型与人类偏好对齐。实验表明,RRHF的性能与采样质量高度相关,是一种最佳n选一的学习者。
Language Models can Solve Computer Tasks
Geunwoo Kim Pierre Baldi Stephen Marcus McAleer
研究问题:如何让大型语言模型(LLM)代理通过自然语言指令执行计算机任务。
动机:现有的方法需要大量的专家演示和特定任务的奖励函数,对于新任务来说并不实用。
方法:提出了一种简单的提示方案,让代理通过递归地批评和改进其输出(RCI)来执行计算机任务。
效果:实验结果表明,RCI方法在自动化计算机任务方面显著优于现有的LLM方法,并在MiniWoB++基准测试中超过了监督学习和强化学习方法。
Meta-Adapter: An Online Few-shot Learner for Vision-Language Model
Cheng Cheng Lin Song Ruoyi Xue Hang Wang Hongbin Sun Yixiao Ge Ying Shan
研究问题:如何提高基于CLIP的少次学习方法的效率和泛化能力。
动机:目前基于CLIP的少次学习方法需要离线微调参数,导致推理时间长且在某些领域存在过拟合的风险。
方法:提出Meta-Adapter,一种轻量级的残差式适配器,以在线方式指导CLIP特征的优化。
效果:使用少量训练样本,该方法能够实现有效的少次学习能力并泛化到未见过的数据或任务,无需额外微调,在八个图像分类数据集上取得了有竞争力的性能和高效率。
Learning to Parameterize Visual Attributes for Open-set Fine-grained Retrieval
Shijie Wang Jianlong Chang Haojie Li Zhihui Wang Wanli Ouyang Qi Tian
研究问题:如何将基于图像级别的检索模型从类别语义提取转变为属性建模,以处理未知类别的开放集细粒度检索任务。
动机:现有的处理方法需要大量的手动标注,劳动密集且效率低下。因此,探索如何在无需任何属性标注的情况下,从已知类别中学习视觉属性并将其参数化到检索模型中,是一个值得研究的问题。
方法:提出了一种新的视觉属性参数化网络(VAPNet),通过利用局部图像补丁来获取丰富的细节语义,并从中提炼出视觉属性。同时,将这些视觉属性作为监督信号纳入训练过程,实现属性的参数化。
效果:在开放集细粒度检索数据集上的大量实验表明,VAPNet的性能优于现有的解决方案。
Post Hoc Explanations of Language Models Can Improve Language Models
Satyapriya Krishna Jiaqi Ma Dylan Z Slack Asma Ghandeharioun Sameer Singh Himabindu Lakkaraju
研究问题:如何利用人类注释的理由(例如,思维链提示)在上下文学习中显著提高大型语言模型的性能?
动机:尽管大型语言模型在执行复杂任务方面表现出色,但将人类注释的理由融入上下文学习以增强模型性能需要大量的人力参与,且难以扩展。
方法:提出了一种名为AMPLIFY的新框架,通过自动化生成理由的过程来解决这个问题。具体来说,我们利用后验解释方法输出一个解释分数,该分数捕获了每个输入特征对模型预测的影响。然后,我们构建了自动的自然语言理由,这些理由是从后验解释中嵌入的见解,为大型语言模型提供修正信号。
效果:通过在真实世界数据集上的大量实验,我们发现AMPLIFY框架在所有类型的任务上都能实现约10%-25%的预测精度提升,包括那些依赖人类注释理由(如思维链提示)的先前方法无法胜任的任务。
How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model
Michael Hanna Ollie Liu Alexandre Variengien
研究问题:本文旨在探究预训练语言模型实现未明确训练任务能力的基本数学能力。
动机:尽管预训练语言模型在未明确训练的任务上表现出惊人的能力,但其实现这些能力的方式尚不清楚。
方法:使用机制可解释性技术来解释GPT-2 small的有限数学能力。作为案例研究,我们考察了它接收如"战争从1732年开始到17年结束"这样的句子,并预测有效的两位数结束年份(大于32年)的能力。
效果:我们发现GPT-2 small通过一个复杂的但通用的机制来计算大于号,该机制在不同的上下文中被激活。
Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals
Tam Minh Nguyen Tan Minh Nguyen Richard Baraniuk
研究问题:Transformer模型在处理自然语言处理和计算机视觉任务时取得了显著的成功,但其深度增加会导致标记表示的退化,即过平滑问题。
动机:过平滑问题是由于Transformer中的自我注意层最小化了一个促进平滑性的函数,导致标记一致性的问题。
方法:我们提出了一种新的正则化器,通过惩罚自我注意输出标记与输入标记之间的差异来保持标记的保真度。通过最小化得到的正则化能量函数,我们得到了一种新的Transformer模型NeuTRENO,它可以缓解过平滑问题。
效果:实验结果表明,NeuTRENO在减少各种实用任务(包括对象分类、图像分割和语言建模)的标记表示过平滑方面优于基线Transformer和最先进的方法。
From Cloze to Comprehension: Retrofitting Pre-trained Masked Language Models to Pre-trained Machine Reader
Weiwen Xu Xin Li Wenxuan Zhang Meng Zhou Wai Lam Luo Si Lidong Bing
研究问题:本文旨在提出一种新的方法,即预训练的机器阅读器(PMR),用于在不获取标记数据的情况下,将预训练的掩码语言模型(MLMs)改造为预训练的机器阅读理解(MRC)模型。
动机:现有的MLMs在模型预训练和下游微调之间存在差异,而PMR可以解决这个问题。
方法:通过使用维基百科超链接构建大量通用和高质量的MRC风格训练数据,并设计了一个Wiki锚点提取任务来指导MRC风格的预训练,从而构建了提出的PMR。
效果:PMR不仅简单易行,而且在提取任务(如抽取式问答和命名实体识别)上表现出色,尤其在低资源场景中。当应用于MRC形式的顺序分类任务时,PMR能够提取高质量的理由来解释分类过程,从而提高预测的可解释性。此外,PMR还有潜力成为解决MRC形式中各种提取和分类任务的统一模型。
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation
Jiawei Liu Chunqiu Steven Xia Yuyao Wang LINGMING ZHANG
研究问题:现有的编程基准测试在评估大型语言模型(LLMs)生成的代码的功能正确性方面存在数量和质量的限制,因此需要提出一种更严格的评估框架。
动机:为了解决现有编程基准测试中存在的限制,我们提出了EvalPlus,这是一个用于严格评估LLM生成的代码功能正确性的代码合成评估框架。
方法:EvalPlus通过使用基于LLM和突变策略的自动测试输入生成器来增加新的测试用例,从而增强给定的评估数据集。我们还扩展了流行的HumanEval基准测试的测试用例,构建了HumanEval+。
效果:我们的广泛评估表明,HumanEval+能够检测到大量以前未被发现的LLM生成的错误代码,将pass@k降低了19.3-28.9%。此外,我们还发现测试不足可能导致误排名。例如,WizardCoder-CodeLlama和Phind-CodeLlama现在在HumanEval+上的表现优于ChatGPT,而在HumanEval上则无法做到。我们的研究不仅表明现有的编程基准测试结果不能准确反映LLM在代码合成方面的真正性能,而且还开启了通过自动化测试改进此类编程基准的新方向。
Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning
Xiaoming Shi Siqiao Xue Kangrui Wang Fan Zhou James Y. Zhang JUN ZHOU Chenhao Tan Hongyuan Mei
研究问题:本文旨在探索大型语言模型是否能对真实世界事件进行推理,并帮助提高事件序列模型的预测性能。
动机:目前的预训练语言模型在推理任务上表现出色,作者希望探究其是否能够用于事件预测。
方法:设计了一个名为LAMP的框架,将大型语言模型整合到事件预测中。具体来说,语言模型通过溯因推理来协助事件序列模型:事件模型根据过去提出对未来事件的预测;在专家注释的演示指导下,语言模型学习为每个预测提出可能的原因;搜索模块找出与原因匹配的先前事件;评分函数学习检查检索到的事件是否真的可能导致预测。
效果:通过对多个具有挑战性的现实世界数据集进行大量实验,作者证明,由于大型语言模型的推理能力,他们的框架可以显著优于最先进的事件序列模型。
Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models
Pan Lu Baolin Peng Hao Cheng Michel Galley Kai-Wei Chang Ying Nian Wu Song-Chun Zhu Jianfeng Gao
研究问题:大型语言模型(LLMs)在解决各种自然语言处理任务上取得了显著进步,但它们无法获取最新的信息,使用外部工具,进行精确的数学和逻辑推理。
动机:为了解决LLMs的这些固有限制,本文提出了Chameleon,一个通过增强LLMs以实现组合推理的AI系统。
方法:Chameleon通过将各种工具(如LLMs、现成的视觉模型、网络搜索引擎、Python函数和基于启发式模块)组合起来完成复杂的推理任务,从而合成程序。其核心是一个基于LLM的计划器,该计划器组装一系列工具来执行生成最终响应。
效果:在两个多模态知识密集推理任务ScienceQA和TabMWP上,Chameleon展示了其有效性。在ScienceQA上,Chameleon实现了86.54%的总体准确率,比已发布的最好的少数结果提高了11.37%。在TabMWP上,GPT-4驱动的Chameleon将准确率提高了17.0%,将最先进的技术提升到98.78%。分析还显示,与ChatGPT驱动的计划器相比,GPT-4驱动的计划器通过从指令中推断出潜在的约束条件,表现出更一致和理性的工具选择。
PointGPT: Auto-regressively Generative Pre-training from Point Clouds
Guangyan Chen Meiling Wang Yi Yang Kai Yu Li Yuan Yufeng Yue
研究问题:如何将生成预训练转换器(GPT)的概念扩展到点云,以解决无序特性、信息密度低和任务差距等问题。
动机:受GPT进展的启发,提出一种新的方法PointGPT,该方法可以更好地处理点云数据。
方法:通过将输入点云分割成多个点片并按照空间邻近性进行排序,然后使用提取器-生成器基于的变压器解码器,配合双掩蔽策略,学习了条件于前一点片的潜在表示,以自回归的方式预测下一个点片。
效果:该方法可学习高容量模型,具有良好的泛化能力,并在各种下游任务上取得了最先进的性能。在ModelNet40数据集和ScanObjectNN数据集上,我们的模型达到了94.9%和93.4%的分类准确率,超过了所有其他变压器模型。此外,我们的方法还在所有四个少样本学习基准测试中实现了新的最先进的准确率。
LLM-Pruner: On the Structural Pruning of Large Language Models
Xinyin Ma Gongfan Fang Xinchao Wang
研究问题:本文旨在探索大型语言模型(LLMs)的压缩方法,以解决模型大小带来的部署、推理和训练挑战。
动机:大型语言模型虽然在理解和生成语言方面表现出色,但其庞大的模型规模给部署、推理和训练带来了重大挑战。
方法:本文提出了一种名为LLM-pruner的方法,该方法采用结构剪枝技术,根据梯度信息选择性地移除非关键耦合结构,最大限度地保留LLM的大部分功能。通过调优技术LoRA,可以在仅3小时内高效地恢复剪枝模型的性能,且仅需50K数据。
效果:我们在LLaMA、Vicuna和ChatGLM三种LLMs上验证了LLM-Pruner的效果,证明压缩后的模型在零样本分类和生成任务上仍表现出令人满意的能力。
Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven Navigation
Hongcheng Wang Andy Guan Hong Chen Xiaoqi Li Mingdong Wu Hao Dong
研究问题:如何让智能代理在未知环境中,根据用户的需求找到相应的物体。
动机:传统的视觉对象导航(VON)需要用户知道目标物体的名称并且该物体必须在场景中,这在现实中往往难以满足。因此,本文提出需求驱动导航(DDN),将用户的需求作为任务指令,使智能代理找到与需求匹配的物体。
方法:通过大型语言模型(LLM)提取常见知识来获取物体的文本属性特征,然后使用对比性语言-图像预训练(CLIP)将这些文本属性特征与视觉属性特征对齐。
效果:实验证明,引入视觉属性特征可以提升智能代理的导航性能,优于常见的VON和VLN任务方法以及使用LLM的方法。
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca
Zhengxuan Wu Atticus Geiger Thomas Icard Christopher Potts Noah Goodman
研究问题:如何获取大型通用语言模型的人类可解释性解释,同时保证解释方法忠实于模型行为背后的因果关系并能对未见过输入进行稳健泛化。
动机:AI安全需要我们能够理解和解释大型语言模型的行为,而我们的可解释性方法必须能反映模型行为的因果关系并具有稳健的泛化能力。
方法:通过使用基于因果抽象理论的强大梯度下降方法分布式对齐搜索(DAS),并将其中的暴力搜索步骤替换为学习参数,我们提出了无边界DAS方法。这种方法可以在大型语言模型遵循指令的同时,有效地寻找其可解释的因果关系结构。
效果:我们将无边界DAS应用于阿尔帕卡模型(7B参数),发现该模型通过实现一个带有两个可解释布尔变量的因果模型来解决简单的数值推理问题。此外,我们还发现神经网络表示与这些变量的对齐对于输入和指令的变化具有稳健性。这些发现标志着我们向深入理解最大和最广泛部署的语言模型的内部工作机制迈出了第一步。
Exploring Question Decomposition for Zero-Shot VQA
Zaid Khan Vijay Kumar b g Samuel Schulter Manmohan Chandraker Yun Fu
研究问题:本文旨在解决视觉问答(VQA)中每个问题投入相同精力的问题,探索一种将问题分解的策略。
动机:传统的VQA被视为单步任务,每个问题得到相同的处理,这与人类自然的问题解答策略不同。
方法:通过使用人类编写的分解和模型自己生成的分解来探索新开发的大型视觉语言模型的能力,并引入了一种模型驱动的选择性分解方法来预测和纠正错误。
效果:在三个领域的八个VQA任务上进行了验证,结果显示了一致的准确性提高,包括在医疗VQA数据集上提高了20%以上,并在Winoground挑战性任务的VQA重新制定中使BLIP-2的零样本性能超过了机会。
Collaborative Alignment of NLP Models
Fereshte Khani Marco Tulio Ribeiro
研究问题:现有的自然语言处理模型在训练后需要进行调整以符合业务规则,纠正不良行为并符合用户价值观,但定义所有可能的概念是一项困难的任务。
动机:为了解决这一问题,我们提出了一个多用户协作的模型对齐框架CoAlign。
方法:CoAlign通过让多个用户与模型互动来操作他们的概念,学习每个概念的局部模型和整合原始数据与所有概念的全局模型,然后引导大型语言模型在概念边界内生成实例。
效果:实验证明,CoAlign能有效帮助多个用户操作概念,避免各种场景、任务和模型之间的干扰。
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
Yasheng SUN Yifan Yang Houwen Peng Yifei Shen Yuqing Yang Han Hu Lili Qiu Hideki Koike
研究问题:如何准确、全面地使用自然语言描述图像操作任务,以反映人类的意图?
动机:由于语言表达的内在不确定性和模糊性,用自然语言精确、全面地描述图像操作任务既费力又有时甚至不可能。
方法:提出一种新的图像操作方法,名为ImageBrush,该方法通过学习视觉指令来进行更准确的图像编辑。主要思路是使用一对转换图像作为视觉指令,这不仅能精确捕捉到人类的意图,也便于在真实场景中的使用。
效果:实验表明,该方法可以生成符合演示中包含的变换的吸引人的操作结果。此外,该模型在各种下游任务(如姿态转移、图像翻译和视频修复)上表现出强大的泛化能力。
Fairness-guided Few-shot Prompting for Large Language Models
Huan Ma Changqing Zhang Yatao Bian Lemao Liu Zhirui Zhang Peilin Zhao Shu Zhang Huazhu Fu Qinghua Hu Bingzhe Wu
研究问题:大型语言模型的上下文学习性能受训练示例、示例顺序和提示格式变化的影响,如何构建合适的提示以提高上下文学习性能。
动机:已有研究表明,上下文学习的性能受到训练示例、示例顺序和提示格式的变化影响,因此,构建合适的提示对于提高上下文学习的性能至关重要。
方法:本文从预测偏倚的角度重新审视了这个问题,引入了一个评估固定提示对标签或给定属性的预测偏倚的度量标准,并提出了一种新的基于贪婪搜索的提示搜索策略来识别接近最优的提示,以改善上下文学习的性能。
效果:通过在各种下游任务上与最先进的主流模型如GPT-3进行广泛的实验,结果表明,该方法可以有效且可解释地提高模型的上下文学习性能。
RADAR: Robust AI-Text Detection via Adversarial Learning
Xiaomeng Hu Pin-Yu Chen Tsung-Yi Ho
研究问题:如何区分由人类生成的文本和大型语言模型(LLM)生成的AI文本,并解决由此产生的滥用和公平性问题。
动机:当前AI文本检测器对基于LLM的文本改写不够稳健,需要一种能够有效识别AI文本的新方法。
方法:提出一种新的框架RADAR,通过对抗性学习同时训练一个鲁棒的AI文本检测器。RADAR基于一个改写器和一个检测器的对抗性训练,改写器的目标是生成真实的内容以逃避AI文本检测,而检测器则根据反馈更新改写器。
效果:在8个不同的LLMs和4个数据集上进行评估,实验结果表明RADAR显著优于现有的AI文本检测方法,特别是在存在改写的情况下。此外,RADAR还显示出从指令调整的LLM到其他LLM的强大可转移性,并通过GPT-3.5-Turbo评估了其改进的能力。
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning
Xinyi Wang Wanrong Zhu Michael Saxon Mark Steyvers William Yang Wang
研究问题:本文旨在通过贝叶斯视角审视预训练大型语言模型的上下文学习现象,并探讨其背后的机制。
动机:现有的文献指出,预训练的大型语言模型在上下文学习中表现出对少量示范样本选择的敏感性,但现有理解与实际的预训练语言模型之间存在脱节。
方法:本研究将真实的预训练语言模型视为潜在变量模型,并提出一种算法从一组带有小语言模型注释的数据中选择最优示范,然后直接将这些选定的示范推广到更大的语言模型上。
效果:实验结果表明,该方法在八个真实世界文本分类数据集上的GPT模型上平均表现优于基线,并在数学问题数据集GSM8K上展示了实际应用价值。这些实证发现支持了我们的假设,即预训练的语言模型会隐含地推断出包含任务信息的潜在变量。
VPGTrans: Transfer Visual Prompt Generator across LLMs
Ao Zhang Hao Fei Yuan Yao Wei Ji Li Li Zhiyuan Liu Tat-Seng Chua
研究问题:如何降低多模态语言模型(MLLM)中视觉提示生成器(VPG)训练的成本?
动机:预训练一个全新的多模态语言模型需要大量的图像-文本对,资源消耗巨大。因此,将现有的语言模型与相对较轻量级的视觉提示生成器连接起来,成为一种可行的方法。
方法:首次研究了跨语言模型的视觉提示生成器转移性,以降低视觉提示生成器的训练成本。具体来说,我们探索了不同大小和类型的语言模型之间的视觉提示生成器转移。基于最大化转移效率的关键因素,我们开发了一个简单但高效的两阶段转移框架,称为VPGTrans。
效果:我们的VPGTrans方法使得从BLIP-2 OPT 2.7B到BLIP-2 OPT 6.7B的视觉提示生成器转移仅需10%的GPU小时和10.7%的训练数据,远低于从头开始训练一个新的视觉提示生成器所需的资源。此外,我们还展示了我们的VPGTrans方法的实际价值,通过定制两个新的多模态语言模型,包括VL-LLaMA和VL-Vicuna,与最近发布的LLaMA和Vicuna语言模型进行了结合。
DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models
Ge Zheng Bin Yang Jiajin Tang Hong-Yu Zhou Sibei Yang
研究问题:如何将大型语言模型的多步推理能力转移到多模态环境中,并解决由此带来的挑战。
动机:当前的大型语言模型在单一语言模态上的推理能力强大,但在多模态环境下的推理仍面临诸多挑战,如需要大量人力进行标注、灵活性、泛化性和可解释性有限等。
方法:本研究提出了一种新的DDCoT提示方法,通过负空间提示保持批判性思维,并通过将视觉模型的视觉识别能力整合到联合推理过程中,将多模态引入推理。
效果:DDCoT生成的推理不仅显著提高了大型和小型语言模型在零样本提示和微调学习中的推理能力,而且表现出了令人印象深刻的泛化性和可解释性,大大超越了最先进的方法。
Large Language Models are Visual Reasoning Coordinators
Liangyu Chen Bo Li Sheng Shen Jingkang Yang Chunyuan Li Kurt Keutzer Trevor Darrell Ziwei Liu
研究问题:如何利用多个视觉语言模型进行有效的视觉推理。
动机:现有的方法在整合这些互补的视觉语言模型时,往往难以实现理想的高级通信。
方法:提出一种新的范式Cola,通过促进自然语言交流来协调多个视觉语言模型,以发挥其独特和互补的能力。
效果:实验表明,我们的指令调优变体Cola-FT在视觉问答、外部知识视觉问答、视觉蕴含和视觉空间推理任务上取得了最先进的性能。此外,我们的上下文学习变体Cola-Zero在零次和少次设置中表现出竞争力,无需微调。
GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction
Rui Yang Lin Song Yanwei Li Sijie Zhao Yixiao Ge Xiu Li Ying Shan
研究问题:如何让大型语言模型有效地使用多模态工具。
动机:尽管先进的专有大型语言模型,如ChatGPT和GPT-4,通过复杂的提示工程表现出了强大的工具使用潜力,但这些模型通常依赖于高昂的计算成本和无法公开访问的数据。
方法:我们提出了基于自我指令的GPT4Tools,以使开源大型语言模型(如LLaMA和OPT)能够使用工具。该方法通过向高级教师提供各种多模态上下文来生成一个遵循指令的数据集,并使用低秩适应(LoRA)优化来帮助开源大型语言模型解决一系列视觉问题,包括视觉理解和图像生成。
效果:广泛的实验表明,我们的方法在各种语言模型上都非常有效,不仅显著提高了调用已见过的工具的准确性,而且还使未见过的工具具有零样本能力。
Universal Prompt Tuning for Graph Neural Networks
Taoran Fang Yunchao Mercer Zhang Yang Yang Chunping Wang Lei CHEN
研究问题:如何设计适用于各种预训练策略的图神经网络(GNN)的提示式调优方法。
动机:目前图领域的预训练策略多样,使得设计合适的提示式调优方法具有挑战性。尽管已有一些开创性的工作为使用边预测作为预训练任务的模型设计了专门的提示函数,但这些方法仅限于特定的预训练GNN模型,缺乏广泛的适用性。
方法:本文提出了一种名为图提示特征(GPF)的通用提示式调优方法,适用于任何预训练策略的预训练GNN模型。GPF在输入图的特征空间上操作,理论上可以实现与任何形式的提示函数等效的效果。因此,我们不再需要明确说明每种预训练策略对应的提示函数。相反,我们采用GPF以自适应的方式获取下游任务所需的提示图。
效果:实验结果表明,我们的方法在全场景和少场景中分别比微调平均提高了约1.4%和3.2%。此外,当我们的方法应用于专门使用其专业预训练策略的模型时,它显著优于现有的专门提示式调优方法。这些众多优点使我们的方法成为下游适应的优秀替代微调方案。
Discovering Intrinsic Spatial-Temporal Logic Rules to Explain Human Actions
Chengzhi Cao Chao Yang Ruimao Zhang Shuang Li
研究问题:提出一种可解释的模型,通过分析人类运动轨迹来揭示其行为模式。
动机:人类行为受意图和周围环境因素的影响,如与周围物体的空间关系。
方法:使用一组包含意图变量的空间-时间逻辑规则来模拟这种行为,并设计了一种EM学习算法来学习模型参数和规则内容。
效果:在行人和NBA篮球运动员数据集上,该模型显示出优越的可解释性和预测性能,取得了有希望的结果。
A Theory of Multimodal Learning
Zhou Lu
研究问题:本研究旨在探索多模态学习的理论框架,以解释多模态模型在单模态任务上的性能优势。
动机:尽管多模态学习的实践已经显示出优越性,但其理论依据尚不明确。
方法:通过研究多模态学习算法的泛化特性,提出了一个理论框架来解释这一现象。
效果:研究发现,当模态之间存在连接和异质性时,多模态学习可以实现比单模态学习更好的泛化性能,其优势可达到$O(\sqrt{n})$倍,其中$n$代表样本大小。
Random-Access Infinite Context Length for Transformers
Amirkeivan Mohtashami Martin Jaggi
研究问题:Transformers在处理长文本时,由于其注意力机制的大量内存需求,限制了其处理长上下文的能力。
动机:现有的方法如循环记忆或基于检索的增强,或者牺牲了注意力的随机访问灵活性,或者依赖于与模型的注意力不兼容的单独机制进行相关上下文检索。
方法:本文提出了一种新的方法,通过使用地标令牌来代表输入的每一块,并训练注意力选择相关的块,使得可以直接通过注意力机制检索块,而不需要依赖单独的机制。
效果:该方法可以获取与Transformer-XL相当的性能,同时显著减少了每一步检索的令牌数量。此外,通过使用这种方法对LLaMA 7B进行微调,成功地将其上下文长度容量扩展到超过32k个标记,使其可以进行GPT-4级别的推理。
Deductive Verification of Chain-of-Thought Reasoning
Zhan Ling Yunhao Fang Xuanlin Li Zhiao Huang Mingu Lee Roland Memisevic Hao Su
研究问题:大型语言模型在进行各种推理任务时,如何通过链式思维提示进行精确的演绎推理,并确保其推理过程的可信性。
动机:当前的链式思维提示虽然能让模型产生更全面的推理过程,但其对中间推理步骤的强调可能会无意中引入幻觉和累积错误,从而限制模型解决复杂推理任务的能力。
方法:我们提出了一种自然语言基于的演绎推理格式——自然程序,将推理验证过程分解为一系列逐步的子过程,每个子过程只接收必要的上下文和前提。
效果:通过将验证过程整合到每个演绎推理阶段,我们显著提高了生成推理步骤的严谨性和可信度,同时也提高了复杂推理任务的答案正确率。
Training Transitive and Commutative Multimodal Transformers with LoReTTa
Manuel Tran Yashin Dicente Cid Amal Lahiani Fabian J Theis Tingying Peng Eldad Klaiman
研究问题:训练多模态基础模型具有挑战性,因为多模态数据集的可用性有限。
动机:尽管许多公共数据集将图像与文本配对,但很少有数据集同时结合图像和音频或文本和音频。在关键领域如医疗、基础设施或交通中,缺失的模态尤其受影响。
方法:我们引入LoReTTa(链接模态的敏感且交换性的预训练策略)来解决这个问题。我们的自监督框架将因果关系建模和掩蔽建模与交换性和传递性规则相结合。这使得我们可以在模态内部和之间进行转换。
效果:我们在合成、医学和强化学习数据集上广泛评估了我们的方法。在不同的领域中,我们的通用多模态转换器在涉及缺失模态元组的任务上始终优于强大的基线模型,如GPT、BERT和CLIP。
CLadder: A Benchmark to Assess Causal Reasoning Capabilities of Language Models
Zhijing Jin Yuen Chen Felix Leeb Luigi Gresele Ojasv Kamal Zhiheng LYU Kevin Blin Fernando Gonzalez Adauto Max Kleiman-Weiner Mrinmaya Sachan Bernhard Schölkopf
研究问题:大型语言模型是否能够连贯地进行因果关系推理?
动机:现有的自然语言处理工作主要集中在评估大型语言模型的常识因果关系推理,而没有评估模型是否能根据一组明确的形式规则进行因果推断。
方法:我们提出了一个新的自然语言处理任务——因果推理,并创建了一个大型数据集CLadder。基于一系列因果关系图和查询(关联、干预和反事实),我们通过一个权威的因果推理引擎获取了符号化的问题和地面真值答案,并将其翻译成自然语言。
效果:我们的实验表明,这个任务对大型语言模型来说极具挑战性。我们进行了深入的分析,以深入了解大型语言模型的因果推理能力。
Convolutional Visual Prompt for Robust Visual Perception
Yun-Yun Tsai Chengzhi Mao Junfeng Yang
研究问题:本文旨在解决视觉模型在面对分布外(OOD)样本时容易受到干扰的问题,并提出了一种无需标签的测试时间适应方法。
动机:现有的视觉提示方法虽然可以对大规模视觉模型进行输入空间的适应,但需要依赖高维的附加向量和标记数据,这会导致在无标签的自监督测试时间设置中进行模型适应时过拟合。
方法:本文提出了一种卷积视觉提示(CVP)的方法,用于标签自由的测试时间适应,以实现鲁棒的视觉感知。由于CVP的结构性质,其所需的可训练参数少于标准视觉提示的1%,从而防止了过拟合。
效果:通过在各种OOD视觉感知任务上进行的大量实验和分析,证明该方法是有效的,与几种大型模型相比,其鲁棒性提高了5.87%。
Learning to Compress Prompts with Gist Tokens
Jesse Mu Xiang Lisa Li Noah Goodman
研究问题:如何有效地利用语言模型的多任务能力,同时避免在输入上下文窗口中重复编码相同的提示。
动机:目前的预训练语言模型在处理多任务时,需要反复编码相同的提示,这既占用了宝贵的输入空间,又降低了计算效率。
方法:提出一种新的方法——gisting,通过训练语言模型将提示压缩为更小的“要点”令牌集,这些令牌集会被缓存并重复使用以提高计算效率。
效果:在解码器(LLaMA-7B)和编码器-解码器(FLAN-T5-XXL)语言模型上,gisting可以将提示压缩高达26倍,实现了40%的FLOPs减少、4.2%的计算时间加速以及存储节省,同时保持了输出质量的最小损失。
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models
Gen Luo Yiyi Zhou Tianhe Ren Shengxin Chen Xiaoshuai Sun Rongrong Ji
研究问题:如何有效地将大型语言模型(LLMs)扩展到多模态能力,如视觉-语言学习。
动机:现有的多模态解决方案成本过高,需要优化大量参数,并在多模态指令调优前进行大规模的预训练。
方法:提出一种新颖且经济的解决方案,称为混合模态适应(MMA)。MMA采用轻量级模块(适配器)连接图像编码器和LLM,实现图像和语言模型的联合优化,并配备路由算法帮助LLM在单模态和多模态指令之间自动切换。
效果:实验结果表明,MMA和LaVIN在多模态科学问答和多模态对话两种设置下的性能和训练效率均优于现有多模态LLMs,且LaVIN作为通用聊天机器人具有巨大潜力。更重要的是,LaVIN的实际开销非常低,验证了MMA的有效性。
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense
Kalpesh Krishna Yixiao Song Marzena Karpinska John Frederick Wieting Mohit Iyyer
研究问题:大型语言模型的恶意使用,如虚假内容创建和学术剽窃,已经促使人们开发了识别AI生成文本的方法,包括基于水印或异常检测的方法。然而,这些检测算法对AI生成文本的同义词替换的鲁棒性尚不清楚。
动机:为了测试这些检测器,我们构建了一个11B参数的段落改写模型(DIPPER),它可以改写段落,根据周围上下文进行条件控制,并控制词汇多样性和内容重排。
方法:通过DIPPER改写三个大型语言模型(包括GPT3.5-davinci-003)生成的文本,成功地避开了几种检测器,包括水印、GPTZero、DetectGPT和OpenAI的文本分类器。
效果:为了提高AI生成文本检测对同义词替换攻击的鲁棒性,我们引入了一种简单的防御策略,依赖于检索语义相似的生成结果,必须由语言模型API提供商维护。在给定候选文本的情况下,我们的算法会在数据库中搜索以前由API生成的序列,寻找与候选文本在一定阈值内匹配的序列。
Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards
Alexandre Rame Guillaume Couairon Corentin Dancette Jean-Baptiste Gaya Mustafa Shukor Laure Soulier Matthieu Cord
研究问题:本文旨在解决预训练模型在面对多样化奖励时,由于代理奖励的不完美性可能导致训练效果不佳的问题。
动机:目前的预训练模型主要依赖大规模的无监督数据集进行预训练,然后通过人类反馈的强化学习进行微调。然而,代理奖励的不完美性可能会阻碍训练并导致次优结果。
方法:本文提出了一种多策略的方法,通过奖励汤(rewarded soup)来应对多样化的奖励。具体来说,我们首先独立地专门化多个网络(每个代理奖励一个),然后线性插值它们的权重。这种方法在实践中是成功的,因为我们发现,当从共享的预训练初始状态微调不同的奖励时,这些权重仍然是线性连接的。
效果:我们在文本到文本(摘要、问答、有帮助的助手、评论)、文本到图像(图像字幕、文本到图像生成、视觉基础)和控制(移动)任务上展示了该方法的有效性。我们希望提高深度模型的对齐度,以及它们与世界多样性的交互方式。
Strong and Precise Modulation of Human Percepts via Robustified ANNs
Guy Gaziv Michael J. Lee James J. DiCarlo
研究问题:人工神经网络(ANNs)的视觉对象类别报告对微小的对抗性图像扰动非常敏感,而人类类别报告则相对稳定。本研究旨在探究ANNs是否能够准确地引导对人类感知的强烈和精确的干预。
动机:由于人类类别报告相对于微小的图像扰动是相对稳定的,这表明ANNs在科学上是不完整的人类视觉感知模型。因此,本研究希望探究经过强化的ANNs是否能够可靠地发现低范数图像扰动,从而对人类感知产生强烈的干扰。
方法:通过使用标准ANN模型生成小范数图像扰动,并观察人类对象类别感知的稳定性。同时,使用经过强化的ANNs来发现低范数图像扰动,以改变人类类别感知向特定预设感知的方向。
效果:研究发现,经过强化的ANNs能够可靠地发现低范数图像扰动,这些扰动对人类感知产生了强烈的干扰。此外,经过强化的ANNs还能够支持精确的感知状态干预,即通过构建低范数图像扰动来将人类类别感知强烈地改变为特定的预设感知。综上所述,现代生物视觉处理模型已经足够准确,可以对人类感知进行强烈和精确的干预。
MotionGPT: Human Motion as a Foreign Language
Biao Jiang Xin Chen Wen Liu Jingyi Yu Gang YU Tao Chen
研究问题:如何将语言和其他多模态数据(如运动)统一到一个模型中,以提升相关任务的性能。
动机:尽管预训练的大型语言模型取得了进步,但构建一个用于处理语言和其他多模态数据的统一的模型仍然具有挑战性。
方法:通过融合语言数据和大规模的运动模型,提出了一种名为MotionGPT的统一、多功能、用户友好的运动-语言模型,用于处理多种与运动相关的任务。具体来说,我们使用离散向量量化来表示人体运动,并将3D运动转化为运动令牌,类似于生成词令牌的过程。
效果:大量的实验表明,MotionGPT在多个运动任务上实现了最先进的性能,包括基于文本的运动生成、运动描述、运动预测和运动插值等。
TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph
Xueyuan Lin Haihong E Chengjin Xu Gengxian Zhou Haoran Luo Tianyi Hu Fenglong Su Ningyuan Li Mingzhi Sun
研究问题:本文旨在解决知识图谱上的多跳逻辑推理问题,特别是在处理时态知识图谱(TKGs)的复杂查询时的缺失。
动机:现有的复杂查询嵌入方法主要关注静态知识图谱,而对时态知识图谱的研究尚未充分。在时态知识图谱上进行推理存在两个挑战:1. 查询应回答实体或时间戳;2. 运算符应同时考虑实体集上的关系逻辑和时间戳集上的时间逻辑。
方法:我们提出了一种名为“Temporal Feature-Logic Embedding framework”(TFLEX)的时态复杂查询嵌入方法,以解答时态复杂查询。具体来说,我们使用模糊逻辑来计算时态特征逻辑嵌入的逻辑部分,从而自然地对实体集进行所有一阶逻辑运算。此外,我们还在时间戳集上进一步扩展了模糊逻辑,以应对三个额外的时间操作符(**After**、**Before**和**Between**)。
效果:我们在许多查询模式上进行了实验,证明了我们的方法的有效性。
Don’t Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner
Zhengxiang Shi Aldo Lipani
研究问题:本文旨在重新审视预训练语言模型在无标签数据上继续预训练能否提高下游任务的微调性能。
动机:传统的持续预训练对句子对任务或使用提示式微调时可能无效,甚至有害。
方法:提出基于提示的持续预训练(PCP),通过无监督预训练目标将任务相关文本和提示模板同时呈现给语言模型,然后进行目标任务的微调。
效果:实验表明,PCP在半监督和全监督设置中都能显著提升最先进的提示式微调方法的性能,且只需数百个无标签示例即可实现,简化了过程并消除了迭代过程和额外的数据增强的需求。
Flocks of Stochastic Parrots: Differentially Private Prompt Learning for Large Language Models
Haonan Duan Adam Dziedzic Nicolas Papernot Franziska Boenisch
研究问题:大型语言模型在上下文学习方面表现出色,但其提示中包含的数据敏感性引发了隐私问题。
动机:本文首次证明了这些担忧是合理的,针对用于提示大型语言模型的数据,实现了一种有效的成员推断攻击。
方法:我们提出了一种私有的提示学习方法。首先,通过在下游数据上进行梯度下降,可以私有地获取软提示。然而,对于离散提示来说,情况并非如此。因此,我们提出了一种随机鹦鹉投票法,即通过向一组不同的提示呈现大型语言模型(即一群随机鹦鹉),让它们进行噪声投票,从而将群体的知识私有地转移到一个公共提示中。
效果:实验结果表明,使用我们的私有算法提示的大型语言模型与非私有基线非常接近。例如,在使用GPT3作为基础模型时,我们在sst2数据集上实现了92.7%的下游准确率,同时保持了$(\varepsilon=0.147, \delta=10^{-6})$的差分隐私,而非私有基线的准确率为95.2%。此外,通过实验我们还发现,基于提示的方法可以轻松地与现有的商业API一起部署。
Language-based Action Concept Spaces Improve Video Self-Supervised Learning
Kanchana Ranasinghe Michael S Ryoo
研究问题:如何将对比性语言图像预训练模型适应到视频领域,以实现最小监督的迁移学习。
动机:现有的图像CLIP模型在视频领域的适应性问题尚未解决。
方法:通过使用语言绑定的自我监督学习,将图像CLIP模型适应到视频领域。修改了一个用于时间建模的骨干网络,并在自我蒸馏设置下进行训练,其训练目标在动作概念空间中运行。从语言编码器中提取各种动作概念的特征向量构建了这个空间。一个了解动作及其属性的大型语言模型生成了相关的文本提示。
效果:引入了两种训练目标,即概念蒸馏和概念对齐,它们在保留原始表示的一般性的同时,强化了动作及其属性之间的关系。该方法在三个动作识别基准测试上提高了零样本和线性探测性能。
Active Reasoning in an Open-World Environment
Manjie Xu Guangyuan Jiang Wei Liang Chi Zhang Yixin Zhu
研究问题:现有的视觉语言学习模型主要通过整合大量世界知识在完全信息的问题回答数据集上取得了显著的成功,但这些模型大多被动地根据预先存储的知识回答问题,缺乏主动探索和推理的能力。
动机:为了弥补这一差距,我们引入了Conan,这是一个用于评估主动推理的交互式开放世界环境。
方法:Conan促进了主动探索和多轮溯因推理,要求代理与其周围环境积极互动,将新的证据与先前的知识相结合,从不完全的观察中阐明事件。我们还探索了“从推论中进行溯因”的方法,使代理能够利用贝叶斯规则将溯因挑战重新定义为演绎过程。
效果:我们的分析表明,当前的最先进模型在主动探索和理解复杂场景方面存在不足。通过Conan,我们希望推动主动推理的进步,为下一代能够动态参与环境的人工智能代理奠定基础。
Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback
Jaskirat Singh Liang Zheng
研究问题:如何准确评估和改善文本到图像的对齐,特别是在给定文本输入复杂度增加的情况下。
动机:当前的扩散模型在处理复杂文本输入时可能无法生成准确传达给定提示语义的图像,而预训练的多模态模型如CLIP往往无法检测这种不对准。
方法:本文提出了一种分解的方法来评估和改进文本到图像的对齐。首先,引入了一个分解对齐分数,它将复杂的标题分解为一组不相交的断言。然后,使用VQA模型测量每个断言与生成图像的对齐。最后,将不同断言的对齐分数后验组合以给出最终的文本到图像对齐分数。
效果:实验分析表明,所提出的对齐度量与传统的CLIP、BLIP分数相比,与人类评分有显著更高的相关性。此外,我们还发现,断言级别的对齐分数提供了有用的反馈,可以用于简单的迭代过程,逐渐增加最终图像输出中不同断言的表现力。用户研究表明,该方法在总体文本到图像对齐准确性方面比之前最先进的方法提高了8.7%。
SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models
Hongxin Li Jingran Su Yuntao Chen Qing Li Zhaoxiang Zhang
研究问题:如何利用大型语言模型(LLMs)实现自然语言任务导向的电子表格控制。
动机:日常的电子表格处理和项目时间线规划等任务重复且易出错,但大多数终端用户缺乏自动化这些繁重工作的技术水平。随着大型语言模型的出现,通过自然语言用户请求指导软件成为可能。
方法:提出SheetCopilot代理,将自然语言任务与电子表格控制相结合以满足需求。设计一套原子操作作为电子表格软件功能的抽象,并进一步为大型语言模型设计基于状态机的任务规划框架以实现与电子表格的稳健交互。
效果:创建了一个包含221个电子表格控制任务的代表性数据集,并建立了一个全自动化的评估管道,严格衡量大型语言模型在软件控制任务中的能力。SheetCopilot在单次生成中正确完成了44.3%的任务,大大超过了强大的代码生成基线。
Improving CLIP Training with Language Rewrites
Lijie Fan Dilip Krishnan Phillip Isola Dina Katabi Yonglong Tian
研究问题:本文旨在解决预训练视觉模型在训练过程中语言输入未发生变化,限制了对同一图像的多样化文本暴露的问题。
动机:通过语言重写增强对比性语言-图像预训练(CLIP)的训练效果,提高模型的迁移性能。
方法:利用大型语言模型的上下文学习能力,重新编写与每张图像关联的文本描述,生成具有多样性的句子结构和词汇,同时保留原始的关键概念和含义。在训练过程中,LaCLIP随机选择原始文本或重写版本作为每个图像的文本增强。
效果:实验结果表明,使用语言重写的CLIP预训练显著提高了迁移性能,且在训练过程中没有计算或内存开销。具体来说,对于ImageNet零样本准确率,LaCLIP在CC12M上比CLIP高出8.2%,在LAION-400M上高出2.4%。
LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images
Viraj Uday Prabhu Sriram Yenamandra Prithvijit Chattopadhyay Judy Hoffman
研究问题:本文旨在提出一种自动算法,通过生成语言引导的反事实测试图像(LANCE)来对训练好的视觉模型进行压力测试。
动机:利用最新的大型语言建模和基于文本的图像编辑技术,在不改变模型权重的情况下,为IID测试集增加一系列多样化、真实且具有挑战性的测试图像。
方法:我们的方法利用了大型语言模型和基于文本的图像编辑的最新进展,以增强IID测试集,而无需更改模型权重。
效果:我们在生成的数据上对一组多样化的预训练模型进行了基准测试,观察到显著且一致的性能下降。我们还分析了模型在不同类型编辑中的敏感性,并展示了其在揭示ImageNet中以前未知的类别级模型偏见方面的适用性。
Natural Language Instruction-following with Task-related Language Development and Translation
Jing-Cheng Pang Xinyu Yang Si-Hang Yang Xiong-Hui Chen Yang Yu
研究问题:如何让智能体更好地理解并执行人类的语言指令?
动机:现有的语言条件强化学习方法通常需要处理大量的自然语言示例,这增加了解决问题的复杂性,也分散了智能体的注意力。
方法:提出了一种由内而外的自然语言条件强化学习方法,通过开发一个任务相关的、易于被智能体理解的任务语言(TL),以减轻智能体的学习负担。同时,使用翻译器将自然语言翻译成任务语言,用于高效的策略训练。
效果:实验表明,该方法不仅能更好地理解自然语言指令,还能产生更好的指令遵循策略,显著提高成功率,并能适应未见过的自然语言指令表达。此外,任务语言也是一种有效的子任务抽象,与分层强化学习兼容。
Focus Your Attention when Few-Shot Classification
Haoqing Wang Shibo Jie Zhi-Hong Deng
研究问题:如何将预训练的视觉转换器适应于少样本图像分类任务。
动机:在少样本图像分类任务中,模型可能无法关注与当前任务相关的类别实体,即使对支持样本进行微调,来自与类别无关的实体的噪音信息也会损害性能。
方法:首先提出一种使用注意力和梯度信息自动定位支持图像中关键实体位置的方法,称为位置提示;然后通过它们的注意力日志和许多热展示之间的交叉熵损失来优化模型,使其在微调过程中关注关键实体。
效果:该方法可以改善全参数或参数高效微调方法在少样本任务上的性能,适用于不同的视觉转换器和预训练方式。
Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution
Ying Wang Tim G. J. Rudner Andrew Gordon Wilson
研究问题:如何提高视觉语言预训练模型的可解释性。
动机:视觉语言预训练模型在安全关键领域的应用受限于其缺乏可解释性。
方法:提出一种多模态信息瓶颈(M2IB)方法,学习压缩无关信息同时保留相关视觉和文本特征的潜在表示。
效果:实验证明M2IB可以应用于视觉语言预训练模型的属性分析,提高属性准确性,并在医疗等安全关键领域提高模型的可解释性。
LayoutGPT: Compositional Visual Planning and Generation with Large Language Models
Weixi Feng Wanrong Zhu Tsu-Jui Fu Varun Jampani Arjun Reddy Akula Xuehai He S Basu Xin Eric Wang William Yang Wang
研究问题:如何让大型语言模型(LLMs)通过文本条件生成布局,从而与视觉生成模型协作,提高用户在视觉生成中的控制能力。
动机:复杂的精细输入如布局对用户来说是一个重大负担,而大型语言模型可以通过文本条件生成布局,解决这一问题。
方法:提出了LayoutGPT方法,该方法能在样式表语言中编写上下文视觉演示,以提高LLMs的视觉规划能力。
效果:实验表明,LayoutGPT可以在多个领域生成合理的布局,包括2D图像和3D室内场景。在将具有挑战性的语言概念转化为布局安排以实现忠实的文本到图像生成方面,LayoutGPT表现出优越的性能。当与下游图像生成模型结合时,LayoutGPT比文本到图像模型/系统提高了20-40%的性能,并在设计数字和空间正确的视觉布局方面达到了与人类用户相当的水平。最后,LayoutGPT在3D室内场景合成方面取得了与有监督方法相当的性能,证明了其在多个视觉领域中的有效性和潜力。
Symbol-LLM: Leverage Language Models for Symbolic System in Visual Human Activity Reasoning
Xiaoqian Wu Yong-Lu Li Jianhua Sun Cewu Lu
研究问题:如何提高视觉活动理解的可解释性、泛化性和数据效率。
动机:现有的类似System-1的方法在视觉活动理解中,需要结合System-2处理以提高性能。
方法:构建一个由符号和规则组成的符号系统,其中一条规则连接多个符号,以体现人类的知识和推理能力。提出一种新的符号系统,具有广泛的覆盖符号和合理的规则两大理想特性。利用大型语言模型(LLMs)作为这两个理想特性的近似值,即大型语言模型中的符号(Symbol-LLM)。然后,给定一张图像,从图像中提取视觉内容并检查为符号,通过模糊逻辑计算基于规则推理出活动语义。
效果:该方法在广泛的活动理解任务上表现出优越性。
topic-9
diffusion image models model generation generative images text
Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation
Diederik P Kingma Ruiqi Gao
研究问题:如何提高视觉活动理解的可解释性、泛化性和数据效率。
动机:现有的类似System-1的方法在视觉活动理解中,需要结合System-2处理以提高性能。
方法:构建一个由符号和规则组成的符号系统,其中一条规则连接多个符号,以体现人类的知识和推理能力。提出一种新的符号系统,具有广泛的覆盖符号和合理的规则两大理想特性。利用大型语言模型(LLMs)作为这两个理想特性的近似值,即大型语言模型中的符号(Symbol-LLM)。然后,给定一张图像,从图像中提取视觉内容并检查为符号,通过模糊逻辑计算基于规则推理出活动语义。
效果:该方法在广泛的活动理解任务上表现出优越性。
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation
Saurabh Saxena Charles Herrmann Junhwa Hur Abhishek Kar Mohammad Norouzi Deqing Sun David J. Fleet
研究问题:本文旨在探讨去噪扩散概率模型在图像生成、光流估计和单目深度估计任务上的应用。
动机:去噪扩散概率模型具有高保真度和多样性,作者希望探究其在光流估计和单目深度估计等任务上的潜力。
方法:采用自监督预训练、合成数据与真实数据的联合监督训练以及处理噪声不完整训练数据的技术创新(填充和逐步展开的去噪扩散训练),训练出用于深度和光流估计的先进扩散模型,并进行零样本粗到细的精化以获得高分辨率估计。
效果:实验结果表明,该模型在室内NYU基准测试中的相对深度误差为0.074,在KITTI光学流基准测试中的Fl-all得分为3.26%,比已发表的最佳方法提高了约25%。
High-Fidelity Audio Compression with Improved RVQGAN
Rithesh Kumar Prem Seetharaman Alejandro Luebs Ishaan Kumar Kundan Kumar
研究问题:如何利用神经网络压缩模型将高维自然信号(如图像、语音和音乐)压缩成低维离散标记。
动机:现有的语言模型可以成功应用于多种自然信号的建模,其中关键的一环是高质量的神经网络压缩模型。
方法:通过结合高保真音频生成、图像领域的矢量量化技术以及改进的对抗性和重建损失,提出了一种高保真通用神经网络音频压缩算法。
效果:该算法可以将44.1 KHz的音频压缩至仅8kbps的带宽,压缩比达到~90x。在与竞争性音频压缩算法的比较中,该方法表现出显著的优势。
LinkerNet: Fragment Poses and Linker Co-Design with 3D Equivariant Diffusion
Jiaqi Guan Xingang Peng PeiQi Jiang Yunan Luo Jian Peng Jianzhu Ma
研究问题:设计一种连接不同分子片段以形成稳定药物候选分子的连接器,其中片段在3D空间中的位置是未知的。
动机:现有的连接器设计模型假设片段的相对位置已知,但在实际情况下可能并非如此。
方法:开发了一种3D等变扩散模型,该模型联合学习了片段姿势和连接器3D结构的生成过程。通过将片段视为刚体,设计了一种受刚体力学中牛顿-欧拉方程启发的片段姿势预测模块。
效果:在ZINC和PROTAC-DB数据集上的实证研究表明,我们的模型可以在无约束和有约束的生成设置下生成化学有效、可合成和低能分子。
Object-Centric Slot Diffusion
Jindong Jiang Fei Deng Gautam Singh Sungjin Ahn
研究问题:探索将扩散模型整合到以对象为中心的学习中的可行性和潜力,并研究这种方法的优缺点。
动机:尽管扩散模型在图像生成中具有高表现力,但它们在以对象为中心的学习中的集成尚未得到充分探索。
方法:介绍了一种新的模型Latent Slot Diffusion(LSD),它是第一个用条件于对象槽位的潜在扩散模型替换传统插槽解码器的对象中心学习模型,也是第一个无需文本等监督注释的无监督组合条件扩散模型。
效果:通过在各种以对象为中心的任务上进行实验,包括在该领域首次应用FFHQ数据集,证明LSD显著优于最先进的基于变压器的解码器,特别是在更复杂的场景中,并且展现出优越的无监督组合生成质量。此外,还对预训练扩散模型在LSD中的集成进行了初步研究,并证明了其在真实世界的图像分割和生成中的有效性。
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
Eric Nguyen Michael Poli Marjan Faizi Armin W Thomas Michael Wornow Callum Birch-Sykes Stefano Massaroli Aman Patel Clayton M. Rabideau Yoshua Bengio Stefano Ermon Christopher Re Stephen Baccus
研究问题:如何利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Score-based Generative Models with Lévy Processes
Eunbi Yoon Keehun Park Sungwoong Kim Sungbin Lim
研究问题:寻找一种超越高斯的随机过程,用于基于分数的生成模型中噪声注入的最佳选择。
动机:现有的布朗运动等轻尾过程在不平衡数据上存在模式崩溃问题,且收敛速度慢。
方法:提出一种新的基于分数的生成模型——Lévy-Itō模型(LIM),利用各向同性的α稳定Lévy过程。通过推导由Lévy过程驱动的精确反向时间随机微分方程,并开发相应的分数去噪得分匹配方法。
效果:实验结果表明,与现有的扩散模型相比,LIM在各种图像数据集(如CIFAR10、CelebA和不平衡数据集CIFAR10LT)上允许更快、更多样化的采样,同时保持高保真度。在CelebA数据集上,与DDPM相比,取得了更好的Fréchet Inception Distance(FID)和召回率。在NFE 500中,LIM显示出最好的性能,总墙钟时间比基线快2倍。
Complexity Matters: Rethinking the Latent Space for Generative Modeling
Tianyang Hu Fei Chen Haonan Wang Jiawei Li Wenjia Wang Jiacheng Sun Zhenguo Li
研究问题:本文旨在解决生成模型中如何选择和确定最优的低维潜在空间的问题。
动机:尽管在生成模型中,选择和使用低维潜在空间是至关重要的,但如何确定最优的潜在空间及其选择过程仍然不清楚。
方法:受经典生成对抗网络(GANs)的启发,我们提出了一种新的潜在空间与数据分布之间的距离度量方式,其最小化等价于生成器复杂度的最小化。然后,我们考虑通过编码器网络参数化这样的潜在分布,并提出了两阶段训练策略,即解耦自动编码器(DAE)。
效果:我们的理论研究结果得到了广泛的实验验证,包括VQGAN和Diffusion Transformer等多种模型。我们的改进措施显著提高了样本质量,同时降低了模型复杂度。
Parallel Sampling of Diffusion Models
Andy Shih Suneel Belkhale Stefano Ermon Dorsa Sadigh Nima Anari
研究问题:扩散模型是一种强大的生成模型,但采样速度慢,通常需要1000个连续的去噪步骤才能生成一个样本。
动机:目前的研究主要通过减少去噪步骤的数量来提高采样速度,但这会降低样本质量。因此,本文探索了另一种方法:能否并行运行去噪步骤(用计算能力换取速度)。
方法:尽管去噪步骤具有序列性质,但通过猜测未来去噪步骤的解并进行迭代细化直到收敛,我们证明了可以通过皮卡尔迭代法并行化采样。基于这一发现,我们提出了ParaDiGMS方法,该方法通过并行执行多个去噪步骤来加速预训练扩散模型的采样。
效果:使用ParaDiGMS,我们在一系列机器人和图像生成模型上将采样速度提高了2-4倍,同时在任务奖励、FID分数或CLIP分数方面没有可测量的下降。
Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors
Paul Steven Scotti Atmadeep Banerjee Jimmie Goode Stepan Shabalin Alex Nguyen Cohen Ethan Aidan James Dempster Nathalie Verlinde Elad Yundler David Weisberg Kenneth Norman Tanishq Mathew Abraham
研究问题:如何通过大脑活动从fMRI中检索和重建查看的图像?
动机:目前的检索和重建方法在处理高维度多模态潜在空间时存在困难,需要一种能够映射fMRI大脑活动到任何高维多模态潜在空间的方法。
方法:提出MindEye模型,包括两个并行的子模块,一个用于检索(使用对比学习),另一个用于重建(使用扩散先验)。该模型可以将fMRI大脑活动映射到任何高维多模态潜在空间,如CLIP图像空间,并利用接受此潜在空间嵌入的生成模型进行图像重建。
效果:实验结果表明,MindEye在重建和检索任务上均取得了最先进的性能。特别是,即使在高度相似的候选者中,MindEye也可以检索到原始图像,表明其大脑嵌入保留了精细的图像特定信息。此外,通过消融实验证明,MindEye的性能提升主要来自于专门的检索和重建子模块、改进的训练技术和训练参数数量级更大的模型。
Towards Symmetry-Aware Generation of Periodic Materials
Youzhi Luo Chengkai Liu Shuiwang Ji
研究问题:本文旨在解决使用深度学习模型生成周期性材料的问题。
动机:虽然对对称性感知的分子生成已经进行了广泛研究,但周期性材料具有不同的对称性,这尚未被现有方法完全捕捉。
方法:我们提出了SyMat,这是一种新的材料生成方法,可以捕获周期性材料结构的物理对称性。SyMat通过变分自动编码器模型生成材料的原子类型集、晶格长度和晶格角度来生成材料的原子类型和晶格。此外,SyMat采用基于分数的扩散模型生成材料的原子坐标,其中在坐标扩散过程中使用了一种新的对称性感知概率模型。
效果:我们证明了SyMat在理论上对所有材料对称变换都是不变的,并在随机生成和性质优化任务上取得了良好的性能。我们的代码作为AIRS库的一部分公开提供(https://github.com/divelab/AIRS)。
ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting
Zongsheng Yue Jianyi Wang Chen Change Loy
研究问题:扩散式图像超分辨率(SR)方法主要受限于低推理速度,因为需要数百甚至数千次采样步骤。
动机:现有的加速采样技术不可避免地在一定程度上牺牲性能,导致过度模糊的SR结果。
方法:我们提出了一种新颖且高效的用于SR的扩散模型,显著减少了扩散步骤的数量,从而消除了推理期间后加速及其相关性能下降的需要。该方法构建了一个马尔可夫链,通过在高分辨率图像和低分辨率图像之间的残差进行转移,大大提高了转换效率。此外,还开发了一种精心设计的噪声调度程序,以灵活控制扩散过程中的移位速度和噪声强度。
效果:大量实验表明,即使在只有20个采样步骤的情况下,所提出的方法在合成和真实世界的数据集上都能获得优于或至少与当前最先进的方法相当的性能。我们的代码和模型将公开发布。
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation
Zhengyi Wang Cheng Lu Yikai Wang Fan Bao Chongxuan Li Hang Su Jun Zhu
研究问题:本文旨在解决文本到3D生成中的问题,如过度饱和、过度平滑和低多样性。
动机:现有的分数蒸馏采样(SDS)方法在文本到3D生成中表现出巨大潜力,但存在过度饱和、过度平滑和低多样性等问题。
方法:提出将3D参数模型为随机变量,而不是像SDS那样的常量,并提出了变分分数蒸馏(VSD)方法,这是一种基于粒子的变分框架,用于解释和解决上述问题。
效果:实验结果表明,VSD可以很好地处理各种CFG权重,同时提高样本的多样性和质量。此外,还提出了一些关于文本到3D设计的改进,如蒸馏时间表和密度初始化等。整体方法称为ProlificDreamer,可以生成高分辨率(512x512)和高保真度的NeRF,具有丰富的结构和复杂的效果(如烟雾和水滴)。
Aligning Synthetic Medical Images with Clinical Knowledge using Human Feedback
Shenghuan Sun Gregory Goldgof Atul Butte Ahmed Alaa
研究问题:如何评估合成医疗图像的临床可信度,并提高其质量?
动机:虽然现代生成模型能够合成逼真的医疗图像,但其临床可信度可能受到质疑。现有的评价方法无法融入临床知识,且难以预测模型在生成临床可信图像时可能出现的问题。
方法:本文提出了一种医生参与循环框架来生成具有临床可信度的合成医疗图像。该框架包括三个步骤:(1)预训练一个条件扩散模型,根据临床概念生成医疗图像;(2)专家病理学家评估生成的图像,以确定它们是否满足临床要求;(3)训练一个奖励模型,预测人类对新样本的反馈,并将其纳入扩散模型的微调目标中。
效果:实验结果表明,人类反馈显著提高了合成图像的质量,包括逼真度、多样性、在下游应用中的实用性以及专家评估的可信度。此外,人类反馈还可以教会模型新的临床概念,这些概念在原始训练数据中并未标注。
Pre-Training Protein Encoder via Siamese Sequence-Structure Diffusion Trajectory Prediction
Zuobai Zhang Minghao Xu Aurelie Lozano Vijil Chenthamarakshan Payel Das Jian Tang
研究问题:本文旨在解决预训练蛋白质模型的问题,目前大多数方法只关注蛋白质序列或结构,忽视了它们的联合分布,这对于通过整合共进化信息和结构特征全面理解蛋白质功能至关重要。
动机:受到去噪扩散模型在生成任务中成功的启发,我们提出了DiffPreT方法,通过序列-结构联合扩散建模来预训练一个蛋白质编码器。
方法:DiffPreT通过引导编码器从扰动的蛋白质序列和结构中恢复出原始的蛋白质序列和结构,从而获取序列和结构的联合分布。为了捕捉蛋白质的重要构象变化,我们通过一种名为Siamese Diffusion Trajectory Prediction(SiamDiff)的方法增强了DiffPreT,以捕获结构相关构象之间的关联性。
效果:实验结果表明,DiffPreT在所有任务上的性能始终具有竞争力,而SiamDiff在所有任务上实现了新的最先进的性能。
AbDiffuser: full-atom generation of in-vitro functioning antibodies
Karolis Martinkus Jan Ludwiczak WEI-CHING LIANG Julien Lafrance-Vanasse Isidro Hotzel Arvind Rajpal Yan Wu Kyunghyun Cho Richard Bonneau Vladimir Gligorijevic Andreas Loukas
研究问题:本文旨在开发一种等变且物理感知的扩散模型AbDiffuser,用于抗体3D结构和序列的联合生成。
动机:现有的抗体生成模型存在一些问题,如无法处理序列长度变化、内存复杂度高等问题。
方法:本文提出了一种新的蛋白质结构表示方法,并在此基础上构建了一种新型的对齐蛋白质架构。同时,利用强大的扩散先验知识来改进去噪过程,从而改善蛋白质扩散。
效果:实验结果表明,AbDiffuser能够生成与参考集在序列和结构属性上紧密跟踪的抗体。实验室实验证实,所有发现的16种HER2抗体都得到了高水平表达,其中57.1%的设计是紧密结合的。
Transition-constant Normalization for Image Enhancement
Jie Huang Man Zhou JingHao Zhang Gang Yang Mingde Yao Chongyi Li Zhiwei Xiong Feng Zhao
研究问题:探索归一化技术如何影响图像增强性能。
动机:尽管图像增强可以被视为一种形式的风格转换,但很少有研究探讨归一化对增强性能的影响。
方法:提出一种新的过渡常数归一化(TCN)用于各种图像增强任务。具体来说,它由两个满足可逆约束的归一化操作流以及一个满足归一化约束的特征子采样操作组成。
效果:通过在多个图像增强任务上进行大量实验,如低光增强、曝光校正、SDR2HDR转换和图像去雾,TCN始终显示出性能改进。此外,它在其他任务中也表现出强大的能力,包括全景锐化和医学分割。
Stable Diffusion is Unstable
Chengbin Du Yanxi Li Zhongwei Qiu Chang Xu
研究问题:本文旨在解决文本到图像模型在生成过程中的鲁棒性问题,即对文本提示进行小的扰动可能导致主要主题与其他类别混合或完全消失。
动机:尽管文本到图像模型具有强大的生成能力,但其生成过程缺乏鲁棒性。通过引入小的扰动,可以有效地阻止模型生成期望的主题。
方法:本文提出了一种基于梯度的攻击方法——Auto-attack on Text-to-image Models (ATM)。该方法通过学习Gumbel Softmax分布,使单词替换或扩展的离散过程连续化,从而确保扰动生成的可微性。一旦分布被学习,ATM就可以同时生成多个攻击样本。
效果:实验结果表明,ATM在短文本攻击中取得了91.1%的成功率,在长文本攻击中取得了81.2%的成功率。进一步的实证分析揭示了三种攻击模式:1)生成速度的变化;2)粗粒度特性的相似性;3)词的多义性。
Real-World Image Variation by Aligning Diffusion Inversion Chain
Yuechen ZHANG Jinbo Xing Eric Lo Jiaya Jia
研究问题:现有的扩散模型在生成真实世界图像的高质量变化时存在领域差距。
动机:这种领域差距源于不同扩散过程中的潜在分布差距。
方法:提出一种新的推理管道RIVAL,通过将图像生成过程与源图像的反转链对齐,利用扩散模型从单个图像样本生成图像变化。
效果:实验结果表明,RIVAL在语义相似性和感知质量方面优于现有方法,且可以轻易应用于其他基于扩散的生成任务。
Full-Atom Protein Pocket Design via Iterative Refinement
ZAIXI ZHANG Zepu Lu Zhongkai Hao Marinka Zitnik Qi Liu
研究问题:设计能与特定配体分子结合的功能蛋白质,特别是在治疗和生物工程等领域。
动机:现有的方法在生成效率、上下文模型(配体分子)和生成侧链原子方面存在不足。
方法:提出一种全原子迭代优化框架(FAIR),用于联合设计蛋白质口袋的序列(即残基类型)和3D结构。FAIR包括两个步骤,遵循从粗到细的流水线(从骨架原子到包括侧链在内的全原子)。
效果:实验表明,FAIR在高效设计高质量口袋序列和结构方面优于基线方法,平均AAR和RMSD提高超过10%。
Hierarchical Integration Diffusion Model for Realistic Image Deblurring
Zheng Chen Yulun Zhang Ding Liu Bin Xia Jinjin Gu Linghe Kong Xin Yuan
研究问题:本文旨在解决扩散模型在图像去模糊任务中需要大量计算资源和对目标结果的分布不准确的问题。
动机:扩散模型在图像去模糊任务中表现出良好的性能,但需要大量的计算资源并且生成的分布与目标结果不匹配。
方法:提出了一种分层集成扩散模型(HI-Diff),通过在高度压缩的潜在空间中执行扩散模型来生成去模糊过程的先验特征,然后通过基于回归的方法进行去模糊处理,同时设计了分层集成模块从多个尺度将先验知识融合到基于回归的模型中。
效果:在合成和真实世界的模糊数据集上的实验表明,HI-Diff优于现有的最先进方法。
Privacy Assessment on Reconstructed Images: Are Existing Evaluation Metrics Faithful to Human Perception?
Xiaoxiao Sun Nidham Gazagnadou Vivek Sharma Lingjuan Lyu Hongdong Li Liang Zheng
研究问题:现有的手工制作的图像质量指标(如PSNR和SSIM)在评估重建攻击下的模型隐私风险时,是否能够准确反映人类对隐私信息的认知?
动机:目前的图像质量指标无法确保能准确反映人类对重建图像的隐私泄露程度的判断,这可能导致模型隐私泄露的风险。
方法:本文通过让多个人类标注者对重建图像进行识别,发现现有的手工制作的图像质量指标与人类对隐私泄露程度的判断只有弱相关性,甚至这些指标本身也存在相互矛盾的情况。因此,提出了一种基于学习的度量标准SemSim,用于评估原始图像和重建图像之间的语义相似性。
效果:实验结果表明,SemSim与人类判断的相关性明显高于现有的图像质量指标,并且这种强相关性可以推广到未见过的数据、模型和攻击方法上。这项研究被视为更接近人类水平的图片质量评估的一个重要里程碑。
Puzzlefusion: Unleashing the Power of Diffusion Models for Spatial Puzzle Solving
Sepidehsadat Hosseini Mohammad Amin Shabani Saghar Irandoust Yasutaka Furukawa
研究问题:如何利用扩散模型解决空间拼图问题,特别是拼图和房间布局任务。
动机:现有的方法在处理空间拼图任务时存在挑战,作者希望找到一种有效的解决方案。
方法:提出了一种基于扩散模型的端到端神经网络架构“PuzzleFusion”,通过估计2D平移和旋转来对齐房间布局,类似于解决房间布局的拼图问题。
效果:通过新的具有真实布局的数据集进行训练,实验结果表明该方法在所有三个空间拼图任务上都显著优于竞争方法。
Protein Design with Guided Discrete Diffusion
Nate Gruver Samuel Don Stanton Nathan C. Frey Tim G. J. Rudner Isidro Hotzel Julien Lafrance-Vanasse Arvind Rajpal Kyunghyun Cho Andrew Gordon Wilson
研究问题:如何结合生成模型和判别模型进行蛋白质设计?
动机:为了解决结构基础方法的局限性,如数据稀缺和逆向设计的挑战。
方法:提出了一种名为diffusioN优化采样(NOS)的离散扩散模型指导方法,该方法遵循降噪网络隐藏状态中的梯度。
效果:通过将NOS应用于LaMBO,实现了更强的性能和有限的编辑,并在实际应用中优化了抗体的表达率和结合率。
Disentangled Wasserstein Autoencoder for T-Cell Receptor Engineering
Tianxiao Li Hongyu Guo Filippo Grazioli Mark Gerstein Martin Renqiang Min
研究问题:如何从数据驱动的角度自动识别和修改蛋白质中的功能位点。
动机:功能位点与整体结构之间的区分是蛋白质生物物理中的一个基本概念,识别和修改这些功能位点对于蛋白质工程至关重要,但计算上复杂且需要大量的领域知识。
方法:提出一种带有辅助分类器的解耦的Wasserstein自编码器,该模型可以从理论上保证将功能相关模式与其他模式分离,实现一次性编辑蛋白质序列并提高对结果序列和编辑操作的理解。
效果:该方法在T细胞受体(TCRs)上的应用表明,可以在不改变结构主干的情况下改变TCRs的功能,并在生成质量和效率上都优于几种竞争方法,而且运行时间仅为基线模型的10%。据我们所知,这是第一个利用解耦表示进行TCR工程的方法。
UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures
Zhong-Qiu Wang Shinji Watanabe
研究问题:在多说话人混响条件下,如何利用多个麦克风获取的混合信号进行无监督语音分离。
动机:在麦克风数量超过说话人数的情况下,我们可以将解决方案缩小到说话人图像,并通过将每个混合信号作为一个约束(即,一个麦克风处的估计说话人图像应该等于混合信号)来实现无监督的语音分离。
方法:我们提出了UNSSOR算法,这是一种通过利用过度确定的培训混合物进行无监督神经网络语音分离的方法。在每一步训练中,我们将输入混合物输入到深度神经网络(DNN)中,为每个说话人产生一个中间估计值,线性过滤这些估计值,并优化损失函数,使得在每个麦克风处,所有说话人的过滤后估计值可以相加等于混合物以满足上述约束。
效果:实验结果表明,这种损失函数可以促进说话人的无监督分离。线性过滤器是在每个子带中基于混合物和DNN估计值通过前向卷积预测(FCP)算法计算的。为了解决使用子带FCP产生的频率置换问题,我们提出了一种基于最小化源内幅度散射的损失项。虽然UNSSOR需要过度确定的培训混合物,但我们可以通过训练DNN实现不足确定的分离(例如,无监督单声道语音分离)。在混响条件下两个说话人的分离评估结果证明了UNSSOR的有效性和潜力。
SpecTr: Fast Speculative Decoding via Optimal Transport
Ziteng Sun Ananda Theertha Suresh Jae Hun Ro Ahmad Beirami Himanshu Jain Felix Yu
研究问题:大型语言模型的自回归采样在几个自然语言任务中取得了最先进的结果,但速度慢,甚至在某些任务中不可行。
动机:为了加快采样速度,提出了一种名为“投机解码”的方法,即使用一个小模型生成一个草案(一组或一序列的标记),然后通过大型语言模型并行地对所有草案中的标记进行评分。根据统计方法,接受草案中的一些标记(其余的被拒绝),以保证最终输出遵循大型模型的分布。
方法:本文从最优传输(OT)和成员成本的角度对投机解码进行了原理性的理解。这种新的公式可以将投机解码方法推广到允许在标记级别有一组k个候选者,从而得到改进的最优成员成本。我们证明了最优草案选择算法(传输计划)可以通过线性规划计算,其最佳已知运行时间是k的指数级。然后,我们提出了一个有效的草案选择算法,其接受概率是(1-1/e)-最优的乘法。此外,它可以在单个标记域的大小上几乎以线性时间计算。
效果:利用这种新的草案选择算法,我们开发了一种新的自回归采样算法,称为SpecTr,它在保证解码输出质量不降低的同时,实现了解码速度的提升。实验表明,对于最先进的大型语言模型,所提出的方法在标准基准测试上实现了2.13倍的时钟速度提升,比投机解码快了1.37倍。
Generating Behaviorally Diverse Policies with Latent Diffusion Models
Shashank Hegde Sumeet Batra K.R. Zentner Gaurav S. Sukhatme
研究问题:如何将大量且多样化的行为策略压缩到一个模型中,同时保持其性能和覆盖范围。
动机:现有的行为多样性强化学习(QD-RL)方法虽然能学习到一系列表现良好的策略,但需要存储数千个策略,导致空间复杂度高且难以扩展到更多行为。
方法:提出使用扩散模型将策略存档提炼为一个生成模型,该模型在保留原始策略集的性能和覆盖范围的同时,实现了13倍的压缩比。
效果:该方法成功恢复了98%的原始奖励和89%的原始人形存档覆盖范围,并且由于扩散模型的条件机制,可以灵活选择和排序行为,包括使用语言。
Spatially Resolved Gene Expression Prediction from Histology Images via Bi-modal Contrastive Learning
Ronald Xie Kuan Pang Sai W Chung Catia Perciani Sonya MacParland BO WANG Gary Bader
研究问题:如何有效地利用组织学成像技术进行医学诊断和研究,并理解其背后的分子机制?
动机:组织学成像是医学诊断和研究的重要工具,理解其背后的分子机制对于揭示疾病机制和发展有效治疗至关重要。
方法:我们提出了BLEEP(双模态嵌入表达预测)框架,这是一种能够生成全片染色组织学图像的空间分辨基因表达谱的双模态嵌入框架。BLEEP使用对比学习从参考数据集构建低维联合嵌入空间,该空间包含微米分辨率的配对图像和表达轮廓。
效果:我们在人类肝脏组织数据集上进行了基准测试,证明了BLEEP在基因表达预测方面的有效性,并在10x Visium平台上实现了显著优于现有方法的结果。这展示了BLEEP在揭示组织架构背后的分子机制方面的巨大潜力,为各种疾病的诊断和研究开辟了新的途径。
Compositional Sculpting of Iterative Generative Processes
Timur Garipov Sebastiaan De Peuter Ge Yang Vikas Garg Samuel Kaski Tommi S. Jaakkola
研究问题:如何有效地组合和调整生成模型以实现特定的任务目标?
动机:生成模型的高训练成本以及针对特定任务的微调需求,使得模型复用和组合成为研究热点。
方法:提出了一种通用的方法——"组合雕刻"(Compositional Sculpting),用于定义迭代生成过程的组合。并引入了一种基于分类器指导的从这些组合中采样的方法。
效果:在GFlowNets和扩散模型上展示了如何完成组合雕刻,并在图像和分子生成任务上提供了实证结果。项目代码库:https://github.com/timgaripov/compositional-sculpting。
MarioGPT: Open-Ended Text2Level Generation through Large Language Models
Shyam Sudhakaran Miguel González-Duque Matthias Freiberger Claire Glanois Elias Najarro Sebastian Risi
研究问题:如何利用大规模语言模型生成反映特定意图和约束的有意义内容,以及如何实现开放性的内容生成。
动机:虽然程序化内容生成(PCG)技术可以自动生成复杂多样的环境,但生成具有特定意图和约束的有意义内容仍然具有挑战性,且许多PCG算法缺乏开放性的内容生成能力。
方法:介绍了一种经过微调的GPT2模型MarioGPT,用于生成基于瓦片的游戏级别,如超级马里奥兄弟级别。MarioGPT不仅可以生成多样化的级别,还可以通过文本提示进行可控级别的生成,解决了当前PCG技术的关键挑战之一。
效果:据我们所知,MarioGPT是第一个文本到级别的模型,结合新颖性搜索,它能够生成具有不同游戏风格动态(即玩家路径)的多样化级别,并开放性地发现越来越多样化的内容范围。
A Regularized Conditional GAN for Posterior Sampling in Image Recovery Problems
Matthew C Bendel Rizwan Ahmad Philip Schniter
研究问题:在图像恢复问题中,如何从失真、不完整和/或噪声干扰的测量中推断出图像。
动机:此类问题出现在磁共振成像(MRI)、计算机断层扫描、去模糊、超分辨率、修复、相位检索、图像到图像转换等应用中。我们的目标是快速准确地从后验分布中采样。
方法:我们提出了一种正则化条件Wasserstein GAN,每秒钟生成数十个高质量的后验样本。我们的正则化包括$ell_1$惩罚和自适应加权标准差奖励。
效果:通过使用条件Fréchet inception距离等定量评估指标,我们在多线圈MRI和大规模修复应用中展示了该方法产生的后验样本处于最先进的水平。
P-Flow: A Fast and Data-Efficient Zero-Shot TTS through Speech Prompting
Sungwon Kim Kevin J. Shih Rohan Badlani Joao Felipe Santos Evelina Bakhturina Mikyas T. Desta Rafael Valle Sungroh Yoon Bryan Catanzaro
研究问题:训练一种快速、数据高效的零样本TTS模型,用于语音提示的说话人适应。
动机:现有的大规模神经网络编解码语言模型在零样本TTS上表现出显著改进,但存在鲁棒性差、采样速度慢和依赖预训练神经编解码表示等缺点。
方法:提出P-Flow模型,该模型使用语音提示进行说话人适应,并采用流匹配生成解码器进行高质量且快速的语音合成。
效果:通过连续语音提示的训练方法,P-Flow在所需训练数据量减少两个数量级的情况下,达到与大型零样本TTS模型相当的说话人相似性性能,并且采样速度快于实时。实验结果表明,P-Flow在发音和人类相似度以及说话人相似度方面优于最新的最先进的模型,因此是一种吸引人且理想的替代方案。
Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence
Grace Luo Lisa Dunlap Dong Huk Park Aleksander Holynski Trevor Darrell
研究问题:如何从扩散模型中提取有意义的内部表示,并整合多尺度和多时间步长的特征图以用于后续任务。
动机:现有的扩散模型虽然能生成高质量的图像,但其内部信息的特征映射分布在网络的各层和扩散的时间步上,难以提取有用的描述符。
方法:提出一种名为“扩散超特征”的框架,将多尺度和多时间步长的特征图整合为可用于下游任务的每个像素的特征描述符。这些描述符可以通过生成和反转过程在合成图像和真实图像上提取。
效果:该方法在语义关键点对应任务上表现出优越的性能,并在SPair-71k真实图像基准测试中取得了优异的成绩。此外,该方法具有灵活性和可转移性,可以在未见过的对象和组合的合成图像对上使用。
Precision-Recall Divergence Optimization for Generative Modeling with GANs and Normalizing Flows
Alexandre Verine benjamin negrevergne Muni Sreenivas Pydi Yann Chevaleyre
研究问题:在生成模型领域,如何在图像质量(精确度)和多样性(召回率)之间取得平衡是一个重大挑战。
动机:目前最先进的模型主要依赖于优化启发式方法,如Frechet Inception Distance。虽然最近的进展引入了评估精确度和召回率的原则性方法,但尚未成功整合到生成模型的训练中。
方法:我们的主要贡献是一种新的生成模型训练方法,如生成对抗网络和归一化流,该方法明确地优化用户定义的精确度和召回率之间的权衡。更具体地说,我们表明实现指定的精确度-召回率权衡对应于最小化一种称为PR-divergences的独特f-divergence。反之,任何f-divergence都可以表示为PR-divergences和某种权重的组合,对应于加权的精确度-召回率权衡。
效果:通过全面的评估,我们发现这种方法在ImageNet等数据集上,无论是在精确度还是召回率方面,都优于现有的最先进的BigGAN模型。
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning
Haoran He Chenjia Bai Kang Xu Zhuoran Yang Weinan Zhang Dong Wang Bin Zhao Xuelong Li
研究问题:本文旨在研究扩散模型在处理大规模多任务离线数据时的有效性,特别是在面临多样化和多模态数据分布的挑战时。
动机:尽管现有的扩散模型在视觉和自然语言处理中表现出强大的生成能力,并在强化学习中显示出对复杂策略或轨迹的强大建模能力,但这些研究仅限于单任务设置,缺乏能够处理多任务困境的通用代理。
方法:本文提出了一种基于扩散的多任务离线数据建模方法——Multi-Task Diffusion Model (\textsc{MTDiff})。该方法结合了Transformer主干网络和提示学习,用于在多任务离线环境中进行生成规划和数据合成。\textsc{MTDiff}利用多任务数据中的知识,并在任务之间执行隐式知识共享。
效果:实验结果表明,对于生成规划,textsc{MTDiff}在Meta-World的50个任务和Maze2D的8个地图上超过了现有的最佳算法。对于数据合成,\textsc{MTDiff}能够在给定单个演示作为提示的情况下为测试任务生成高质量的数据,从而提高了甚至未见过的任务的低质量数据集的质量。
Tree-Rings Watermarks: Invisible Fingerprints for Diffusion Images
Yuxin Wen John Kirchenbauer Jonas Geiping Tom Goldstein
研究问题:如何通过水印技术对生成模型的输出进行版权追踪和防止AI生成内容的潜在危害。
动机:现有的水印技术需要在采样后对图像进行后处理,而本文提出的Tree-Ring Watermarking技术则在采样过程中微妙地影响整个流程,使得模型指纹对人类不可见。
方法:Tree-Ring Watermarking将模式嵌入到用于采样的初始噪声向量中,这些模式在傅里叶空间中结构化,使其对卷积、裁剪、膨胀、翻转和旋转具有不变性。生成图像后,通过反转扩散过程来检测水印信号,然后检查嵌入的信号。
效果:实验证明,这种技术可以很容易地应用于任意扩散模型,包括文本条件稳定的扩散模型,作为插值使用,其FID的损失可以忽略不计。与当前部署的水印替代方案相比,该水印在图像空间中是语义上隐藏的,并且更加鲁棒。
Collaborative Score Distillation for Consistent Visual Editing
Subin Kim Kyungmin Lee June Suk Choi Jongheon Jeong Kihyuk Sohn Jinwoo Shin
研究问题:如何将大规模文本到图像扩散模型的生成先验适应到复杂的视觉模态,特别是在多图像(如视频或3D场景)中实现一致性。
动机:现有的文本到图像扩散模型在处理复杂视觉模态时,难以保持一组图像的一致性。
方法:提出一种新的协作得分蒸馏(CSD)方法,基于斯坦因变分梯度下降(SVGD),通过将多个样本视为“粒子”并在SVGD更新中结合它们的得分函数,同步提炼一组图像上的生成先验。
效果:实验表明,CSD在各种编辑任务中都有效,包括全景图像、视频和3D场景的视觉编辑,证明了其作为提高样本间一致性的通用方法的有效性,从而拓宽了文本到图像扩散模型的应用范围。
Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise
Arpit Bansal Eitan Borgnia Hong-Min Chu Jie S. Li Hamid Kazemi Furong Huang Micah Goldblum Jonas Geiping Tom Goldstein
研究问题:本文旨在探讨扩散模型的生成行为是否强烈依赖于图像退化的选择,并探索如何通过改变这一选择来构建整个系列的生成模型。
动机:作者观察到,即使使用完全确定的退化(如模糊、遮蔽等),扩散模型的训练和测试更新规则也可以轻松地推广以创建生成模型。
方法:通过改变图像退化的选择,可以构建出整个系列的生成模型。这些完全确定的模型的成功,挑战了社区对扩散模型的理解,即其依赖于梯度Langevin动力学或变分推理中的噪声。
效果:这为通用扩散模型铺平了道路,该模型可以反转任意过程。
CSLP-AE: A Contrastive Split-Latent Permutation Autoencoder Framework for Zero-Shot Electroencephalography Signal Conversion
Anders Vestergaard Nørskov Alexander Neergaard Zahid Morten Mørup
研究问题:本文旨在解决EEG数据分析中的问题,即如何提取潜在的神经激活(内容)并考虑个体差异(风格)。
动机:由于EEG数据存在高度的噪声和受试者间变异性,因此需要一种能够提取潜在表示并考虑内容和风格的信号转换方法。
方法:受到语音转换技术进展的启发,提出了一种新的对比性分裂潜伏期置换自编码器(CSLP-AE)框架,该框架直接优化EEG转换。通过对比学习引导潜在表示,以明确表示受试者(风格)和任务(内容)。
效果:与常规的有监督、无监督(AE)和自我监督(对比学习)训练相比,发现该方法提供了有利的可泛化的任务和受试者表征。此外,该方法还实现了未见过的受试者之间的零射转换。
PromptIR: Prompting for All-in-One Image Restoration
Vaishnav Potlapalli Syed Waqas Zamir Salman Khan Fahad Khan
研究问题:本文旨在解决深度学习在图像恢复任务中对不同类型和级别的退化具有有限泛化能力的问题。
动机:目前的深度学习方法需要为每种特定的退化类型训练单独的模型,并且需要知道输入的退化类型才能应用相关的模型,这限制了其在实际世界中的应用。
方法:本文提出了一种基于提示的学习方式PromptIR,用于一体化图像恢复,可以有效地从各种类型和级别的退化中恢复图像。具体来说,该方法使用提示来编码特定于退化的信息,然后动态地指导恢复网络。
效果:实验结果表明,PromptIR能够推广到不同的退化类型和级别,同时在图像去噪、去雨滴和去雾等方面取得了最先进的结果。
Diffusion Model for Graph Inverse Problems: Towards Effective Source Localization on Complex Networks
Xin Yan Hui Fang Qiang He
研究问题:信息扩散问题的解决,如疫情或谣言的传播,是社会广泛存在的问题。基于当前观察到的扩散图进行源定位和识别扩散路径的图扩散逆问题对于控制信息传播至关重要。
动机:扩散源定位的问题高度病态,对准确评估涉及的不确定性构成了主要障碍。此外,虽然理解信息如何通过图表传播至关重要,但关于重建信息传播路径的研究却很少。
方法:我们提出了一种名为DDMSL(离散扩散模型用于源定位)的概率模型。该方法基于信息在复杂网络中自然扩散的传播过程,可以通过消息传递函数来表述。首先,我们使用马尔可夫链对信息的前向扩散进行建模。然后,我们设计了一个可逆的残差网络,以在离散空间中构建一个去噪扩散模型,用于源定位和信息扩散路径的重建。
效果:我们对DDMSL提供了严格的理论保证,并通过在五个真实世界数据集上的大量实验证明了其有效性。
Beta Diffusion
Mingyuan Zhou Tianqi Chen Zhendong Wang Huangjie Zheng
研究问题:本文旨在介绍一种新的生成模型方法——beta扩散,该方法通过结合去掩蔽和去噪来生成在限定范围内的数据。
动机:传统的基于扩散的生成模型依赖于加性高斯噪声和重新加权的证据下界(ELBOs),而beta扩散是乘性的,并使用KL散度的上界(KLUBs)进行优化,这源于KL散度的凸性。
方法:beta扩散利用缩放和平移的贝塔分布,通过随时间进行乘性转换来创建正向和反向扩散过程,保持在任何时间点的数据的正向边际和反向条件中的贝塔分布。
效果:实验结果表明,所提出的KLUBs比负ELBOs更有效地优化了beta扩散,这对于生成范围受限的数据的生成模型具有独特的能力,并验证了KLUBs在优化扩散模型中的有效性,使它们成为基于扩散的生成模型家族和用于训练它们的优化技术的重要补充。
Simple and Controllable Music Generation
Jade Copet Felix Kreuk Itai Gat Tal Remez Gabriel Synnaeve Yossi Adi Alexandre Défossez
研究问题:本文旨在解决条件音乐生成的任务。
动机:现有的音乐生成模型需要多个阶段或多个模型的级联,而本文提出的MusicGen只需要一个语言模型和有效的标记插值模式,避免了这种复杂性。
方法:MusicGen是一个单一的语言模型,它在几个压缩的离散音乐表示(即标记)流上操作。通过这种方式,我们可以在文本描述或旋律特征的条件下生成高质量的样本。
效果:实验结果表明,MusicGen在自动和人工研究中都优于基准线,证明了这种方法的优越性。
xTrimoGene: An Efficient and Scalable Representation Learner for Single-Cell RNA-Seq Data
Jing Gong Minsheng Hao Xingyi Cheng Xin Zeng Chiming Liu Jianzhu Ma Xuegong Zhang Taifeng Wang Le Song
研究问题:现有的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
动机:本文提出了一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Energy Guided Diffusion for Generating Neurally Exciting Images
Paweł A. Pierzchlewicz Konstantin Friedrich Willeke Arne Nix Pavithra Elumalai Kelli Restivo Tori Shinn Cate Nealley Gabrielle Rodriguez Saumil Patel Katrin Franke Andreas S. Tolias Fabian H. Sinz
研究问题:如何更有效地预测生物和人工视觉系统中神经元的活动?
动机:随着视觉层次的提升,神经元计算的复杂性增加,对神经元活动进行建模变得更具挑战性。
方法:本文提出了一种受视觉注意力机制启发的新架构——注意力读取,以及一个数据驱动的卷积核心,这两种新方法在预测猕猴V4区域神经元活动方面优于之前的任务驱动模型。同时,为了解决深度和复杂性增加可能导致的过度拟合问题,我们提出了一种基于能量引导(EGG)的扩散生成MEIs的方法。
效果:对于猕猴V4区域的模型,EGG生成的单神经元MEIs比最先进的梯度上升法(GA)具有更好的泛化能力,同时计算成本降低了4.7倍,有利于进行实验性的挑战性闭环实验。此外,EGG扩散还可以用于生成其他令人兴奋的神经图像,如最令人兴奋的自然图像和在各种架构中表现良好的图像重建。最后,EGG易于实现,无需重新训练扩散模型,可以方便地推广到提供视觉系统的其他表征,如不变性。因此,EGG提供了一个通用而灵活的框架,以自然图像为背景研究视觉系统的编码特性。
Unified Segment-to-Segment Framework for Simultaneous Sequence Generation
Shaolei Zhang Yang Feng
研究问题:如何同时生成目标序列,以实现低延迟高质量的实时场景,如流式语音识别、同步机器翻译和同步语音翻译。
动机:现有的方法往往依赖于特定任务的策略来处理不同的序列类型,限制了模型自适应学习源-目标映射的能力,阻碍了多任务学习的探索。
方法:本文提出了一种统一的片段到片段(Seg2Seg)框架进行同步序列生成,以一种自适应和统一的方式学习映射。在同步生成过程中,模型交替等待源片段和生成目标片段,使片段成为源和目标之间的自然桥梁。
效果:实验证明,Seg2Seg在多种同步生成任务上实现了最先进的性能,并在各种任务中表现出更好的通用性。
Functional-Group-Based Diffusion for Pocket-Specific Molecule Generation and Elaboration
Haitao Lin Yufei Huang Odin Zhang Yunfan Liu Lirong Wu Siyuan Li Zhiyuan Chen Stan Z. Li
研究问题:近年来,AI辅助药物设计方法被提出以生成目标蛋白口袋结构对应的分子。大多数方法是基于原子级别的,这导致难以生成具有复杂结构的逼真片段。
动机:为了解决这个问题,我们提出了D3FG,一种基于功能团的扩散模型,用于特定口袋的分子生成和详细化。
方法:D3FG将分子分解为两类组件:定义为刚体的官能团和作为质点的连接体。这两种类型的组件可以一起形成增强配体-蛋白质相互作用的复杂片段。在扩散过程中,D3FG将组件的位置、方向和类型的数据分布扩散到先验分布中;在生成过程中,通过用设计的等变图神经网络参数化的去噪器逐渐去除三个变量中的噪声。
效果:实验结果表明,我们的方法可以生成具有更真实3D结构的分子,对蛋白质靶点具有竞争力的亲和力,并具有更好的药物性质。此外,D3FG作为一种解决新任务分子详细化的解决方案,可以根据现有配体和目标蛋白热点生成具有高亲和力的分子。
Energy-Based Cross Attention for Bayesian Context Update in Text-to-Image Diffusion Models
Geon Yeong Park Jeongsol Kim Beomsu Kim Sang Wan Lee Jong Chul Ye
研究问题:尽管文本到图像扩散模型在图像生成任务中表现优异,但生成的图像有时无法捕捉文本提示的预定语义内容,这种现象被称为语义不匹配。
动机:为了解决这个问题,我们提出了一种新的能量基础模型(EBM)框架,通过模拟上下文向量的后验分布进行自适应上下文控制。
方法:我们在去噪自编码器的每一层交叉注意力中,对潜在图像表示和文本嵌入进行EBM建模。然后,我们获取上下文向量后验对数的梯度,可以更新并转移到后续的交叉注意力层,从而隐式地最小化嵌套层次的能量函数。
效果:我们的潜EBMs进一步允许零样本组合生成,作为不同上下文的交叉注意力输出的线性组合。实验表明,该方法在处理各种图像生成任务时非常有效,包括多概念生成、文本引导的图像修复以及真实和合成图像编辑。
Debiasing Scores and Prompts of 2D Diffusion for View-consistent Text-to-3D Generation
Susung Hong Donghoon Ahn Seungryong Kim
研究问题:现有的文本到3D生成技术在执行过程中,往往遇到视图不一致的问题,尤其是“双面人”问题。
动机:为了解决这一问题,我们探索了现有的框架并发现其主要原因是2D扩散模型的嵌入偏差。
方法:我们提出了两种去偏方法。第一种是分数去偏,即在优化过程中逐渐增加截断值以切断2D扩散模型的评分;第二种是提示去偏,通过语言模型识别用户提示和视图提示之间的冲突词,并调整视图提示与物体观察方向的差异。
效果:实验结果表明,这两种方法都能显著减少生成3D对象的人工痕迹,并在保持2D扩散模型忠实度和3D一致性之间取得了良好的平衡。
Disentangling Voice and Content with Self-Supervision for Speaker Recognition
TIANCHI LIU Kong Aik Lee Qiongqiong Wang Haizhou Li
研究问题:如何从语音中提取准确的说话人表示,因为其混合了说话人的特质和内容。
动机:由于说话人的特质和内容在语音中的混合,使得提取准确的说话人表示变得困难。
方法:本文提出了一个解耦框架,该框架同时模拟了语音中说话人的特质和内容的可变性。这是通过使用三个高斯推理层实现的,每个层都包含一个可学习的转换模型,用于提取独特的语音成分。特别是,设计了一个强化的转换模型来模拟复杂的语音动态。我们还提出了一种自我监督的方法,在没有除说话人身份以外的标签的情况下,动态地解耦内容。
效果:通过对VoxCeleb和SITW数据集进行实验,验证了所提出框架的有效性,平均EER和minDCF分别降低了9.56%和8.24%。由于不需要额外的模型训练或数据,因此在实践中易于应用。
FABind: Fast and Accurate Protein-Ligand Binding
Qizhi Pei Kaiyuan Gao Lijun Wu Jinhua Zhu Yingce Xia Shufang Xie Tao Qin Kun He Tie-Yan Liu Rui Yan
研究问题:如何准确预测蛋白质和配体之间的相互作用并预测它们的结合结构,这是药物发现中的关键但具有挑战性的任务。
动机:尽管深度学习在解决这个挑战上显示出了希望,但采样和回归方法作为两种主要的方法存在明显的限制。
方法:我们提出了FABind,这是一个端到端的模型,通过结合口袋预测和对接来快速准确地预测蛋白质-配体的结合。FABind引入了一个独特的配体信息口袋预测模块,该模块也用于对接姿势估计。
效果:通过在基准数据集上的大量实验,我们的FABind在有效性和效率方面与现有方法相比表现出明显的优势。
SA-Solver: Stochastic Adams Solver for Fast Sampling of Diffusion Models
Shuchen Xue Mingyang Yi Weijian Luo Shifeng Zhang Jiacheng Sun Zhenguo Li Zhi-Ming Ma
研究问题:扩散概率模型(DPMs)在生成任务上取得了成功,但采样过程耗时。本研究旨在分析扩散随机微分方程的采样方法,并提出一种高效的随机亚当斯方法来生成高质量数据。
动机:尽管改进的微分方程求解器可以加速采样过程,但随机采样可以在生成多样化和高质量数据方面提供额外优势。
方法:本研究从两个方面对随机采样进行分析:方差控制的扩散随机微分方程和线性多步随机微分方程求解器。基于分析结果,提出了SA-Solver,一种用于解决扩散随机微分方程的高效随机亚当斯方法,以生成高质量数据。
效果:实验结果表明,SA-Solver在几个方面表现优异:1)与现有最先进的采样方法相比,在少数步骤采样中具有改进或相当的性能;2)在大量基准数据集上,在适当的函数评估次数下,实现了最先进的FID。
Training-free Diffusion Model Adaptation for Variable-Sized Text-to-Image Synthesis
Zhiyu Jin Xuli Shen Bin Li Xiangyang Xue
研究问题:如何使文本到图像的扩散模型适应各种特定尺寸和纵横比的图像,同时保持视觉保真度。
动机:目前的扩散模型在训练和评估时都是基于固定尺寸的图像,但用户需要各种特定尺寸和纵横比的图像。
方法:通过观察发现,低分辨率图像在合成过程中会出现对象描绘不完整的问题,而高分辨率图像则会出现重复无序的展示。然后,建立了一个统计关系,表明注意力熵会随令牌数量的变化而变化,这表明模型聚合的空间信息与图像分辨率成正比。因此,提出了一个缩放因子来缓解注意力熵的变化,并减轻观察到的缺陷模式。
效果:大量的实验结果验证了所提出的缩放因子的有效性,使模型能够在不使用额外的训练或微调技术的情况下,实现更好的视觉效果、图像质量和文本对齐。
Multi-scale Diffusion Denoised Smoothing
Jongheon Jeong Jinwoo Shin
研究问题:如何在保证模型准确性的同时,为大规模预训练模型提供对抗性鲁棒性?
动机:随机平滑化是一种能够为大规模模型提供对抗性鲁棒性的实用方法。通过使用准确的去噪器(如扩散模型)进行“去噪-分类”的简单流程,可以实现所谓的去噪平滑化。
方法:我们提出了一种可扩展的方法来解决当前去噪平滑化中认证鲁棒性和准确性之间的权衡问题。主要思想是在多个噪声尺度之间“有选择地”应用平滑化,称为多尺度平滑化,这可以通过单个扩散模型高效实现。此外,我们还提出了一种新的目标来比较多尺度平滑化分类器的集体鲁棒性,并探讨了哪种扩散模型表示能够最大化这一目标。
效果:实验表明,所提出的多尺度平滑方案与扩散模型微调相结合,不仅在高噪声尺度上实现了强大的认证鲁棒性,而且保持了接近非平滑分类器的准确性。
DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models
XiMing Xing Chuang Wang Haitao Zhou Jing Zhang Qian Yu Dong Xu
研究问题:尽管主要在图像上进行训练,我们发现预训练的扩散模型在指导草图合成方面表现出强大的能力。
动机:本文提出了一种创新的算法DiffSketcher,它使用自然语言输入创建矢量化的徒手草图。
方法:DiffSketcher基于预训练的文本到图像扩散模型,通过优化一组Bézier曲线和扩展版的得分蒸馏采样(SDS)损失来执行任务,这使得我们可以将光栅级扩散模型用作参数化矢量化草图生成器的先验。此外,我们还探索了嵌入在扩散模型中的注意力图,用于有效的笔画初始化以加速生成过程。
效果:生成的草图展示了多层次的抽象性,同时保持了所绘制主题的可识别性、基本结构和关键视觉细节。实验表明,DiffSketcher的质量优于先前的工作。
DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics
Kaiwen Zheng Cheng Lu Jianfei Chen Jun Zhu
研究问题:扩散概率模型(DPMs)在高保真图像生成方面表现出色,但在采样效率上存在问题。
动机:现有的快速ODE求解器虽然可以加速采样过程,但它们在推理过程中高度依赖于特定的参数化(如噪声/数据预测),这可能并非最优选择。
方法:我们提出了一种新的优化采样过程中的参数化方法,该方法最小化了ODE解的一阶离散误差。基于这种新的参数化方法,我们提出了“DPM-Solver-v3”,这是一种新的用于DPM的快速ODE求解器,通过在预训练模型中有效计算一些称为“经验模型统计量”的系数。我们还引入了多步方法和预测-校正框架,并提出了一些技术来提高小数量函数评估(NFE)或大指导尺度下的样本质量。
效果:实验表明,DPM-Solver-v3在无条件和有条件采样中都能实现一致的更好或相当的性能,无论是在像素空间还是潜在空间的DPM中,特别是在5到10个NFE的情况下。我们在CIFAR10上的无条件FID为12.21(5 NFE),在Stable Diffusion上的MSE为0.55(5 NFE,7.5指导尺度),与以前的最先进的无训练方法相比,速度提高了15%到30%。代码可在https://github.com/thu-ml/DPM-Solver-v3获取。
Likelihood-Based Diffusion Language Models
Ishaan Gulrajani Tatsunori Hashimoto
研究问题:扩散模型在标准语言建模基准测试上无法达到有意义的似然性,本研究旨在缩小自回归和扩散语言模型之间的似然性差距。
动机:尽管对基于扩散的语言模型的兴趣日益增长,但现有工作并未表明这些模型能够在标准的 language modeling 基准测试上实现非平凡的似然性。
方法:通过算法改进、扩展定律和增加计算力,我们为扩散语言模型的最大似然训练引入了几种方法上的改进。
效果:使用我们的方法及扩展分析,我们训练并发布了Plaid 1B,这是一个大型的扩散语言模型,它在基准数据集上的似然性超过了GPT-2 124M,并在无条件和零射控制设置中生成流畅的样本。
Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be Consistent
Giannis Daras Yuval Dagan Alex Dimakis Constantinos Costis Daskalakis
研究问题:扩散模型的训练和采样分布之间的偏移问题。
动机:由于生成过程的递归性质,前几步的错误会导致采样迭代从训练分布中偏离。然而,标准的去噪得分匹配(DSM)训练目标仅针对非偏移数据进行优化。
方法:提出一致性属性(CP),即模型对其自身生成的预测在时间上是一致的。理论上,证明了描述CP和保守向量场的微分方程在给定一些初始条件时有唯一解。因此,如果在非偏移点通过DSM(强制真实初始条件)很好地学习了分数,那么在偏移点强制CP会传播真实的分数值。
效果:实验表明,在CIFAR-10、AFHQ和FFHQ的条件和无条件生成中,强制CP提高了生成质量。
DOSE: Diffusion Dropout with Adaptive Prior for Speech Enhancement
Wenxin Tai Yue Lei Fan Zhou Goce Trajcevski Ting Zhong
研究问题:如何将条件信息融入去噪扩散概率模型(DDPMs)以进行语音增强(SE)。
动机:尽管确定性深度学习模型已被广泛用于语音增强,但最近的研究表明生成方法,如去噪扩散概率模型,也可以有效。然而,将条件信息融入DDPMs仍是一个挑战。
方法:我们提出了一种名为DOSE的模型无关方法,该方法采用两种有效的条件增强技术来解决这个问题。首先,我们通过训练模型时使用丢弃操作,使模型在生成样本时优先考虑条件因素;其次,我们通过提供具有信息性的自适应先验,将条件信息注入到采样过程中。
效果:实验表明,我们的方法在高质量和稳定的语音生成、与条件因素的一致性以及推理效率方面取得了显著改进。代码已在https://github.com/ICDM-UESTC/DOSE上公开。
Diffusion Self-Guidance for Controllable Image Generation
Dave Epstein Allan Jabri Ben Poole Alexei A Efros Aleksander Holynski
研究问题:如何通过引导内部表示来精确控制生成图像的属性?
动机:虽然大规模生成模型能够从详细的提示中生成高质量的图像,但图像的许多方面难以或无法通过文本传达。
方法:引入自我指导方法,通过引导扩散模型的内部表示来提供对生成图像属性的精确控制。
效果:实验表明,可以从这些表示中提取对象的大小、位置和外观,并展示如何使用它们来引导采样过程。自我指导在各种具有挑战性的图像操作中表现出灵活性和有效性,如修改单个对象的位置或大小(保持图像其余部分不变)、将一个图像中的对象外观与另一个图像的布局合并、将多个图像中的对象组合成一个等。此外,还提出了一种使用自我指导进行重建的新方法,可以将该方法扩展到编辑真实图像。
IMPRESS: Evaluating the Resilience of Imperceptible Perturbations Against Unauthorized Data Usage in Diffusion-Based Generative AI
Bochuan Cao Changjiang Li Ting Wang Jinyuan Jia Bo Li Jinghui Chen
研究问题:扩散基图像生成模型如Stable Diffusion或DALL·E 2,在未经原创图像所有者授权的情况下,可能被用于恶意编辑原始图像。
动机:为了解决这一问题,研究人员试图通过添加难以察觉的扰动来误导扩散模型,使其无法正确生成新的样本,从而保护原始图像免受未授权的数据使用。
方法:研究者提出了一种名为IMPRESS的扰动净化平台,该平台基于一个关键观察结果,即难以察觉的扰动可能导致原始图像和扩散重建图像之间的感知不一致,从而设计出一种新的图像净化优化策略。
效果:IMPRESS平台对几种当代保护方法进行了全面评估,可以作为未来保护方法的评估平台。
Non-autoregressive Machine Translation with Probabilistic Context-free Grammar
Shangtong Gui Chenze Shao Zhengrui Ma Xishan Zhang Yunji Chen Yang Feng
研究问题:如何提高非自回归变换器(NAT)在神经机器翻译中的表达能力和性能?
动机:传统的NAT模型由于假设目标令牌之间的条件独立,其表达能力和性能相比自回归(AT)模型有限。
方法:提出一种名为PCFG-NAT的新方法,利用专门设计的概率上下文无关文法(PCFG)增强NAT模型捕获输出令牌之间复杂依赖关系的能力。
效果:实验结果表明,PCFG-NAT进一步缩小了NAT和AT模型在翻译质量上的差距。此外,PCFG-NAT有助于更深入地理解生成的句子,解决了神经机器翻译中缺乏令人满意的可解释性的问题。
PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model
Yizhe Zhang Jiatao Gu Zhuofeng Wu Shuangfei Zhai Joshua M. Susskind Navdeep Jaitly
研究问题:本文旨在解决自动回归模型在生成文本时可能出现的重复和低质量输出问题。
动机:自动回归模型在生成过程中误差会累积,导致输出质量下降,而降噪扩散模型虽然能修正错误,但计算成本高且输出流畅度不足。
方法:本文提出PLANNER模型,结合了潜在语义扩散和自动回归生成,通过解码模块和规划模块实现对段落全局控制的同时生成流畅的文本。
效果:实验结果表明,PLANNER模型在语义生成、文本补全和摘要等任务上表现出色,能有效生成高质量的长篇文本。
LayoutPrompter: Awaken the Design Ability of Large Language Models
Jiawei Lin Jiaqi Guo Shizhao Sun Zijiang James Yang Jian-Guang Lou Dongmei Zhang
研究问题:如何通过上下文学习解决现有布局生成任务的通用性和数据效率问题。
动机:尽管现有的布局生成工作已取得良好表现,但其通用性和数据效率不足限制了其实际应用。
方法:提出LayoutPrompter,利用大型语言模型(LLMs)进行上下文学习。该模型由输入-输出序列化、动态示例选择和布局排序三个关键组件组成。
效果:在四个公共数据集上进行的实验表明,LayoutPrompter无需任何模型训练或微调,即可与或超越现有方法,显示出其有效性和数据效率。
ResoNet: a Physics-Informed DL Framework for Off-Resonance Correction in MRI Trained with Noise
Alfredo De Goyeneche Shreya Ramachandran Ke Wang Ekin Karasan Joseph Yitan Cheng Stella X. Yu Michael Lustig
研究问题:如何有效地消除磁共振成像(MRI)中的离共振效应?
动机:传统的MRI数据采集方法在采样k空间时效率低下,而更高效的非笛卡尔采样轨迹则更容易受到磁场不均匀性的影响,导致离共振伪影。
方法:提出了一种基于物理的深度学习框架,用于纠正MRI中的离共振效应。该框架可以模拟和分离脂肪/水部分体积效应,并实现并行成像加速。通过使用合成随机数据进行端到端训练,网络可以在各种解剖结构和对比度下无需重新训练即可消除离共振效应。
效果:通过对模型和实际数据的实验证明,该方法可以有效地消除离共振效应,为临床采用非笛卡尔采样轨迹提供了可能,从而实现快速、高效且稳健的MRI扫描。
Self-Supervised Visual Acoustic Matching
Arjun Somayazulu Changan Chen Kristen Grauman
研究问题:本文旨在解决现有声学匹配方法需要成对训练数据,限制了训练数据的多样性或需要使用模拟数据或启发式方法来创建配对样本的问题。
动机:为了解决这个问题,作者提出了一种自我监督的视觉声学匹配方法,只使用目标场景的图像和音频作为训练样本,无需参考声学不匹配的源音频。
方法:该方法通过条件GAN框架和一种新的度量指标,联合学习去混响房间声学和将音频重新合成为目标环境,该度量指标量化了去偏差音频中的剩余声学信息水平。
效果:无论是在野外网络数据还是模拟数据上进行训练,实验结果都表明,该方法在多个具有挑战性的数据集和各种真实世界的音频和环境中,都优于最先进的技术。
DESSERT: An Efficient Algorithm for Vector Set Search with Vector Set Queries
Joshua Engels Benjamin Coleman Vihan Lakshman Anshumali Shrivastava
研究问题:本文研究了向量集合搜索问题,即查询和集合中的元素都是向量集合的情况。
动机:该问题在语义搜索应用中是核心子程序,但现有解决方案速度慢得无法接受。
方法:提出了一种新的近似搜索算法DESSERT,通过检索表来高效地搜索嵌入的集合。
效果:将DESSERT集成到先进的语义搜索模型ColBERT中,在MS MARCO和LoTTE检索基准上实现了2-5倍的速度提升,同时保持了良好的召回率。
PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation
Jialu Li Mohit Bansal
研究问题:视觉-语言导航中,如何有效地训练模型以应对真实环境数量有限的问题。
动机:由于真实环境的获取困难,限制了模型在新环境中的泛化能力。
方法:提出PanoGen生成方法,通过文本描述来生成无限多样的新全景环境。具体步骤包括收集现有环境的图像描述,利用先进的文本到图像扩散模型生成新的全景环境,并通过递归出图创建一致的360度全景视图。
效果:在VLN预训练和微调中应用PanoGen,实验证明新生成的环境在Room-to-Room, Room-for-Room, CVDN等数据集上达到了新的最优效果。同时,发现使用PanoGen生成的环境进行预训练对CVDN特别有效,并且更多的生成环境有助于提高模型在未见环境中的泛化能力。
Any-to-Any Generation via Composable Diffusion
Zineng Tang Ziyi Yang Chenguang Zhu Michael Zeng Mohit Bansal
研究问题:本文旨在提出一种能够生成任何组合输出模态(如语言、图像、视频或音频)的新颖生成模型CoDi。
动机:现有的生成型AI系统通常只能处理单一模态的输入和输出,且需要大量的训练数据集。而CoDi能够并行生成多种模态,并且其输入不限于文本或图像等子集模态。
方法:CoDi通过在输入和输出空间中对齐模态来解决这个问题,即使训练数据中没有某些模态的组合,也能够自由地根据任何输入组合进行条件生成。CoDi采用一种新的可组合生成策略,通过在扩散过程中建立共享的多模态空间来桥接模态对齐,实现交织模态(如时间对齐的视频和音频)的同步生成。
效果:CoDi具有高度的自定义性和灵活性,实现了强大的联合模态生成质量,并在单模态合成方面优于或与现有的单模态最先进水平相当。
Learning to Tokenize for Generative Retrieval
Weiwei Sun Lingyong Yan Zheng Chen Shuaiqiang Wang Haichao Zhu Pengjie Ren Zhumin Chen Dawei Yin Maarten de Rijke Zhaochun Ren
研究问题:如何为每个文档分配唯一的docid(文档标记化)是信息检索中的关键问题,因为它决定了生成检索模型是否可以通过简单地解码其docid来精确地检索任何文档。
动机:大多数现有的方法采用基于规则的标记化,这种方法是特定于任务的,并不能很好地泛化。
方法:本文提出了一种新的文档标记化学习方法GenRet,该方法通过离散自编码的方式学习将完整的文档语义编码为docid。
效果:在NQ320K、MS MARCO和BEIR数据集上进行的实验表明,GenRet在这些数据集上建立了新的最先进的性能。与生成检索基线相比,GenRet可以在未见过的文件上实现显著的改进,并且还可以在MS MARCO和BEIR上超越可比的基线,证明了该方法的泛化能力。
CELLE-2: Translating Proteins to Pictures and Back with a Bidirectional Text-to-Image Transformer
Emaad Khwaja Yun S. Song Aaron Agarunov Bo Huang
研究问题:如何将蛋白质亚细胞定位的氨基酸序列转化为图像,以及如何从图像生成氨基酸序列。
动机:蛋白质定位是一个需要整合序列和图像信息的难题,但现有的方法大多忽视了这一点。
方法:提出一种名为CELL-E 2的新型双向转换器,不仅能够捕捉蛋白质定位的空间复杂性,并在核图像上产生定位概率估计,还能从图像生成序列,实现全新的蛋白质设计。
效果:在两个大型人类蛋白质数据集上训练和微调CELL-E 2,并展示了如何使用CELL-E 2创建数百个新的核定位信号(NLS)。
PoET: A generative model of protein families as sequences-of-sequences
Timothy Fei Truong Jr Tristan Bepler
研究问题:如何设计出具有所需功能的蛋白质?
动机:目前的蛋白质生成模型要么难以针对特定家族进行设计,要么需要对特定家族的大量多重序列比对进行训练,无法利用跨家族的迁移学习。
方法:提出蛋白质演化转换器(PoET),这是一种基于整个蛋白质家族的自回归生成模型,通过在数千万自然蛋白质序列簇中学习生成相关蛋白质序列集。
效果:实验结果表明,PoET在深度突变扫描数据集上的表现优于现有的蛋白质语言模型和进化序列模型,能够控制生成新的蛋白质序列。
Exposing flaws of generative model evaluation metrics and their unfair treatment of diffusion models
George Stein Jesse C. Cresswell Rasa Hosseinzadeh Yi Sui Brendan Leigh Ross Valentin Villecroze Zhaoyan Liu Anthony L. Caterini Eric Taylor Gabriel Loaiza-Ganem
研究问题:本文旨在通过广泛的生成模型和各种语义不同的图像数据集,理解和改进用于评估它们的功能提取器和度量标准。
动机:当前对生成样本的人类感知真实度进行测量的最佳实践是进行大规模的实验,但发现现有的度量标准与人类的评估结果没有强烈的相关性。
方法:通过比较17种现代度量标准,包括整体性能、逼真度、多样性、稀有性和记忆性,我们发现最先进的扩散模型在人类判断下的感知真实度并没有反映在常见的FID等指标上。我们通过研究替代的自我监督特征提取器来解决这个问题,并发现网络编码的语义信息强烈依赖于其训练过程。
效果:我们的实验表明,当前的度量标准并不能正确地检测到数据的记忆现象。为了推动生成模型及其评估的发展,我们发布了所有生成的图像数据集、人类评估数据和一个模块化的库,用于计算9种不同编码器的17种常见度量标准。
Latent Diffusion for Language Generation
Justin Lovelace Varsha Kishore Chao Wan Eliot Seo Shekhtman Kilian Q Weinberger
研究问题:扩散模型在图像、音频和视频等连续数据模态中取得了巨大成功,但在语言等离散领域中应用有限。
动机:将扩散模型应用于语言处理,将其视为现有预训练语言模型的补充。
方法:利用编码器-解码器语言模型学习高质量的语言自编码器,然后在语言自编码器的潜空间中学习连续扩散模型,从而生成可以由预训练的解码器解码为自然语言的连续潜在表示。
效果:通过多个不同的数据集验证了该方法在无条件、有条件和序列到序列的语言生成任务上的有效性,证明我们的潜语言扩散模型明显优于以往的扩散语言模型。
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models
Shihao Zhao Dongdong Chen Yen-Chun Chen Jianmin Bao Shaozhe Hao Lu Yuan Kwan-Yee K. Wong
研究问题:尽管文本到图像扩散模型取得了巨大进步,但现有的模型在理解复杂文本和生成相应图像方面仍面临挑战。
动机:为了解决现有模型在理解和生成复杂图像方面的困难,需要开发一种能够同时利用不同局部控制(如边缘图、深度图、分割掩码)和全局控制(如CLIP图像嵌入)的灵活且可组合的框架。
方法:本文提出了Uni-ControlNet,这是一个统一的框架,允许在一个单一的模型中以灵活且可组合的方式同时使用不同的局部控制和全局控制。与现有方法不同,Uni-ControlNet只需要对预训练好的文本到图像扩散模型进行两个额外适配器的微调,无需从零开始训练。
效果:通过定量和定性比较,Uni-ControlNet在可控性、生成质量和组合性方面均优于现有方法。
Debiasing Pretrained Generative Models by Uniformly Sampling Semantic Attributes
Walter Gerych Kevin Hickey Luke Buquicchio Kavin Chandrasekaran Abdulaziz Alajaji Elke Rundensteiner Emmanuel Agu
研究问题:生成模型在科学和工业应用中越来越广泛,但它们往往在其训练集中存在偏见,如导致某些群体在数据中被低估的社会偏见。
动机:由于训练数据中非白人样本较少,图像生成器可能主要产生白人的图像。因此,有必要对生成模型进行去偏处理,使其为每个群体合成相同数量的实例,同时避免重新训练模型以节省成本。
方法:我们提出了一个分布映射模块,该模块从公平噪声分布中产生样本,使得预训练的生成模型在对这些样本进行条件化时,能够产生语义上均匀的输出——每个群体的实例数量相等。这不需要重新训练生成器,也不需要任何真实训练数据。
效果:我们在流行的真实世界数据集上对去偏生成器进行了实验,结果显示我们的方法优于现有的方法。
CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for Image Manipulation
Sihan Xu Ziqiao Ma Yidong Huang Honglak Lee Joyce Chai
研究问题:扩散模型(DMs)在图像合成任务上取得了突破,但在图像到图像(I2I)翻译任务中缺乏直观的界面。
动机:解决预训练DMs在无配对I2I翻译任务中的一致性问题。
方法:提出Cyclenet,一种将循环一致性融入DMs以规范图像操作的新方法。
效果:在各种粒度的无配对I2I任务上验证Cyclenet,实验表明其在翻译一致性和质量上表现优越,并能通过简单的文本提示生成高质量域外分布的图像。Cyclenet是一个实用的框架,即使只有非常有限的训练数据(约2k)和最少的计算资源(1个GPU)也能进行训练。
Speculative Decoding with Big Little Decoder
Sehoon Kim Karttikeya Mangalam Suhong Moon Jitendra Malik Michael W. Mahoney Amir Gholami Kurt Keutzer
研究问题:大型语言模型的推理延迟限制了其部署和各种实时应用的使用,特别是在自回归生成任务中,因为模型需要迭代生成令牌,无法利用令牌级并行化。
动机:为了解决大型语言模型在推理过程中的延迟问题,本文提出了一种名为Big Little Decoder(BiLD)的框架,该框架包含两个不同大小的模型,可以协同生成文本,以提高推理效率和降低延迟。
方法:BiLD框架中的小模型以自回归方式生成文本,推理成本低;大模型仅在必要时以非自回归方式修正小模型的不准确预测。为了协调这两个模型,BiLD引入了两种简单而有效的策略:(1)退路策略,确定何时将控制权交给大模型;(2)回滚策略,确定大模型何时需要纠正小模型的不准确预测。
效果:通过对不同的任务和模型进行评估,我们发现BiLD在不同的文本生成场景中都能显著提高推理速度,同时保持较低的生成质量下降。在NVIDIA T4 GPU上,我们的框架实现了高达2.12倍的速度提升,且无需修改训练过程或模型架构即可直接应用。
De novo Drug Design using Reinforcement Learning with Multiple GPT Agents
Xiuyuan Hu Guoqing Liu Yang Zhao Hao Zhang
研究问题:如何利用预训练语言模型和知识图谱进行增强的语言表示,以提升各种NLP任务的性能。
动机:现有的预训练语言模型未充分利用知识图谱中的结构化知识,而知识图谱中的有信息量的实体可以增强语言表示。
方法:通过结合大规模文本语料库和知识图谱训练ERNIE模型,使其能同时捕捉词汇、句法和知识信息。
效果:实验结果显示,ERNIE在各种知识驱动任务上表现优秀,且在其他常见NLP任务上与BERT模型相媲美。
Efficient Neural Music Generation
Max W. Y. Lam Qiao Tian Tang Li Zongyu Yin Siyuan Feng Ming Tu Yuliang Ji Rui Xia Mingbo Ma Xuchen Song Jitong Chen Yuping Wang Yuxuan Wang
研究问题:如何提高音乐生成的效率和质量,使其达到与最先进的MusicLM相当的水平。
动机:现有的音乐生成模型如MusicLM虽然效果优秀,但需要通过多个语言模型进行处理,计算成本高且不适合实时生成。
方法:提出一种名为MeLoDy的引导扩散模型,该模型继承自MusicLM的最高级语义模型,并采用新颖的双路径扩散模型和音频VAE-GAN将条件语义令牌高效解码为波形。
效果:实验结果表明,MeLoDy不仅在采样速度和无限续生性方面具有优势,而且在音乐性、音频质量和文本相关性方面也达到了最先进的水平。
Towards Efficient Image Compression Without Autoregressive Models
Muhammad Salman Ali Yeongwoong Kim Maryam Qamar Sung-Chang Lim Donghyun Kim Chaoning Zhang Sung-Ho Bae Hui Yong Kim
研究问题:如何提高学习型图像压缩(LIC)的性能,同时降低其计算复杂度。
动机:现有的基于高斯分布的自回归模型在处理实际图像的潜在特征时存在空间相关性问题,导致性能下降且计算复杂度增加。
方法:提出一种新的方法,通过引入相关性损失来最小化潜在特征的空间相关性,使其更好地适应独立概率模型。
效果:该方法在保持较低计算复杂度的同时,显著提高了学习型图像压缩的性能。与现有的自回归模型相比,该方法在解码时间和推理时间上的计算复杂度分别降低了50倍和30倍,同时性能增益达到了90%和98%。
FaceDNeRF: Semantics-Driven Face Reconstruction, Prompt Editing and Relighting with Diffusion Models
Hao ZHANG Tianyuan DAI Yanbo Xu Yu-Wing Tai Chi-Keung Tang
研究问题:如何从单张图片中生成高质量的3D人脸模型,并实现语义编辑和重光照功能。
动机:随着视频通信、AR/VR和电影行业高级视频编辑等应用的发展,从单张图片生成高质量3D人脸的能力变得越来越重要。
方法:本文提出了Face Diffusion NeRF(FaceDNeRF)方法,这是一种新的生成方法,可以从单张图片重建高质量的人脸NeRFs,具备语义编辑和重光照功能。FaceDNeRF利用了高分辨率的3D GAN逆映射和经过专家训练的2D潜在扩散模型,使用户能够在零样本学习中操纵和构建人脸NeRFs,而无需显式3D数据。
效果:通过精心设计的照明和身份保持损失以及多模态预训练,FaceDNeRF为用户提供了无与伦比的编辑控制能力,使他们能够仅使用单视图图像、文本提示和显式目标照明来创建和编辑人脸NeRFs。与依赖2D分割图进行可编辑属性的现有2D编辑方法相比,FaceDNeRF的先进功能被设计为产生更令人印象深刻的结果。实验表明,与最先进的3D人脸重建和编辑方法相比,我们的FaceDNeRF实现了非常逼真的结果和前所未有的编辑灵活性。
Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale
Matthew Le Apoorv Vyas Bowen Shi Brian Karrer Leda Sari Rashel Moritz Mary Williamson Vimal Manohar Yossi Adi Jay Mahadeokar Wei-Ning Hsu
研究问题:本文旨在解决语音生成模型在规模和任务泛化方面的不足。
动机:虽然大规模生成模型如GPT和DALL-E已经在文本生成方面取得了显著的成果,但语音生成模型仍然处于初级阶段。
方法:本文提出了Voicebox,一种用于大规模语音生成的通用文本引导模型。Voicebox是一种非自回归流匹配模型,可以在给定音频上下文和文本的情况下填充语音。
效果:实验结果表明,Voicebox在各种任务中的表现优于最先进的零射击TTS模型VALL-E,包括可理解性和音频相似性,同时运行速度提高了20倍。
Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability
Haotian Xue Alexandre Araujo Bin Hu Yongxin Chen
研究问题:现有的神经网络模型容易受到对抗性样本的影响,这些样本通过精心设计的微小变化来误导模型。
动机:虽然对抗性样本在数字和物理场景中可以通过基于梯度的技术轻松生成,但它们往往与自然图像的实际数据分布差异很大,导致强度和隐蔽性之间的权衡。
方法:本文提出了一种名为扩散基于投影梯度下降(Diff-PGD)的新框架,用于生成真实的对抗性样本。通过利用由扩散模型引导的梯度,Diff-PGD确保对抗性样本保持接近原始数据分布的同时保持其有效性。此外,我们的框架可以很容易地针对特定任务进行定制,如数字攻击、物理世界攻击和基于风格的攻击。
效果:与传统的基于梯度的方法相比,使用Diff-PGD生成的样本具有更好的迁移性和反净化能力。
Predicting mutational effects on protein-protein binding via a side-chain diffusion probabilistic model
Shiwei Liu Tian Zhu Milong Ren Yu Chungong Dongbo Bu Haicang Zhang
研究问题:预测氨基酸突变对蛋白质-蛋白质结合的影响,特别是在实验数据稀缺的情况下。
动机:氨基酸突变对蛋白质-蛋白质结合的影响预测在蛋白质工程和治疗发现中非常重要,但缺乏标记的实验数据对开发计算方法构成了重大挑战。
方法:提出SidechainDiff,一种利用未标记的实验蛋白质结构的新颖表示学习方法。该方法使用黎曼扩散模型学习侧链构象的生成过程,并能给出蛋白质界面上的突变结构上下文表示。
效果:通过利用学习到的表示,我们在预测蛋白质-蛋白质结合的突变效应方面取得了最先进的性能。此外,SidechainDiff是第一个用于侧链的扩散基生成模型,与主要关注蛋白质主链结构生成的先前努力有所不同。
Diff-Instruct: A Universal Approach for Transferring Knowledge From Pre-trained Diffusion Models
Weijian Luo Tianyang Hu Shifeng Zhang Jiacheng Sun Zhenguo Li Zhihua Zhang
研究问题:如何从预训练的扩散模型中学习,并将知识转移到其他生成模型中,以实现无数据的训练。
动机:预训练的扩散模型包含了关于数据分布的复杂信息,是进行下游应用的宝贵资产。
方法:提出了一个名为Diff-Instruct的通用框架,只要生成的样本可以相对于模型参数进行微分,就可以指导任意生成模型的训练。该框架基于严谨的数学基础,其中指导过程直接对应于最小化一种新的散度——积分KL散度。
效果:在蒸馏预训练扩散模型和优化现有GAN模型的两个场景下进行的实验表明,Diff-Instruct能够产生最先进的一步扩散模型,并可以持续提高各种设置下的预训练GAN模型的生成器性能。
The CLIP Model is Secretly an Image-to-Prompt Converter
Yuxuan Ding Chunna Tian Haoxuan Ding Lingqiao Liu
研究问题:本文旨在解决文本到图像生成模型(如Stable Diffusion)在利用参考图像的隐含信息方面的限制。
动机:现有的方法通过昂贵的训练过程来解决这个问题,但本文提出的方法可以更简单、灵活地实现图像和文本提示之间的桥梁。
方法:利用CLIP模型将图像转换为文本提示,通过线性投影矩阵实现,并可以通过类似领域的少量训练数据或在线训练步骤进一步优化。
效果:该方法可以应用于图像变化和图像编辑等任务,提高图像和文本提示之间的交互效果。
Extremal Domain Translation with Neural Optimal Transport
Milena Gazdieva Alexander Korotin Daniil Selikhanovych Evgeny Burnaev
研究问题:在许多非配对图像领域转换问题中,如何保持翻译后的图像与其各自的输入图像相似。
动机:为了解决如风格转换或超分辨率等非配对图像领域转换问题,需要保持翻译后的图像与其对应的输入图像的相似性。
方法:提出了极值传输(ET)算法,这是一种理论上最好的非配对领域之间的转换的数学形式化,根据给定的相似度函数。受到最近神经最优传输(OT)进展的启发,我们提出了一个可扩展的算法来近似ET映射作为部分OT映射的极限。
效果:我们在玩具示例和非配对图像到图像转换任务上测试了我们的算法。代码已在https://github.com/milenagazdieva/ExtremalNeuralOptimalTransport上公开发布。
Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adaptors
Thomas Hartvigsen Swami Sankaranarayanan Hamid Palangi Yoon Kim Marzyeh Ghassemi
研究问题:预训练语言模型会因输入变化、用户需求改变或新知识出现而性能下降,如何进行有针对性的编辑以避免昂贵的重新训练。
动机:目前的模型编辑器在修改预训练模型的行为时,会在多个连续的编辑中快速降低模型性能。
方法:提出GRACE,一种终身模型编辑方法,对已部署模型的流错误进行点修复,确保对无关输入的影响最小。GRACE将新的映射写入预训练模型的潜在空间,创建一个离散的局部编辑代码库,而不改变模型权重。
效果:在T5、BERT和GPT模型上的实验表明,GRACE在制作和保留编辑方面具有最先进的性能,并能推广到未见过的输入。
One-Line-of-Code Data Mollification Improves Optimization of Likelihood-based Generative Models
Ba-Hien Tran Giulio Franzese Pietro Michiardi Maurizio Filippone
研究问题:本文旨在解决生成模型在样本质量上不如基于分数的扩散模型的问题。
动机:生成模型在计算机视觉等领域取得了巨大成功,但通常在样本质量上不如基于分数的扩散模型。
方法:借鉴基于分数的扩散模型的优点,通过数据软化进行密度估计和避免流形过拟合,提出一种数据软化作为延续方法的观点。
效果:在真实世界图像数据集和UCI基准测试集上,包括变分自动编码器和归一化流的流行基于似然的生成模型中,报告了FID得分和密度估计方面的显著改进。
DiffTraj: Generating GPS Trajectory with Diffusion Probabilistic Model
Yuanshao Zhu Yongchao Ye Shiyao Zhang Xiangyu Zhao James Yu
研究问题:如何有效地生成高质量且保护隐私的GPS轨迹数据。
动机:由于GPS设备的广泛使用和数据采集技术的进步,GPS轨迹数据呈指数增长,这促进了空间-时间数据挖掘的研究。然而,GPS轨迹包含个人地理位置信息,直接处理原始数据存在严重的隐私问题。
方法:本文提出了一种空间-时间扩散概率模型用于轨迹生成(DiffTraj)。该模型将扩散模型的生成能力与从真实轨迹中提取的空间-时间特征有效结合,通过反向轨迹去噪过程从白噪声重构和合成地理轨迹。此外,还提出了一种轨迹UNet(Traj-UNet)深度神经网络,以嵌入条件信息并在反向过程中准确估计噪声水平。
效果:实验结果显示,DiffTraj可以直观地应用于生成高保真轨迹,同时保留原始分布。生成的结果可以支持下游轨迹分析任务,并在地理分布评估方面显著优于其他方法。
SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process
Mengyu Wang Henghui Ding Jun Hao Liew Jiajun Liu Yao Zhao Yunchao Wei
研究问题:本文旨在探索提高不同分割模型产生的物体掩码质量的主要方式。
动机:现有的分割模型在生成物体掩码时,往往存在噪声和不精确的问题,需要进一步优化和改进。
方法:提出一种名为SegRefiner的模型无关解决方案,将分割优化视为数据生成过程,通过一系列去噪扩散步骤实现平滑的优化过程。
效果:实验结果表明,SegRefiner在各种分割任务上均表现出优越性,无论是语义分割、实例分割还是二分类图像分割,都能显著提高分割质量和边界质量,且优于以往的模型无关优化方法,尤其在高分辨率图像的精细细节捕捉上表现突出。
AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models
Yuancheng Wang Zeqian Ju Xu Tan Lei He Zhizheng Wu Jiang Bian sheng zhao
研究问题:本文旨在解决音频编辑中的问题,如添加背景音乐效果、替换乐器和修复损坏的音频。
动机:尽管现有的基于扩散的方法能够通过文本描述输出音频进行零样本音频编辑,但仍存在一些问题,如未在编辑任务上进行训练、可能错误地修改不需要编辑的音频段以及需要完整的输出音频描述。
方法:本文提出了一种基于潜在扩散模型的指令引导音频编辑模型AUDIT。它通过构建不同音频编辑任务的训练数据对(指令、输入音频、输出音频),并使用指令和输入音频作为条件生成输出音频来训练扩散模型。
效果:实验结果表明,AUDIT在多个音频编辑任务上取得了最先进的结果,包括添加、删除、替换、修复和超分辨率等。
Unsupervised Image Denoising with Score Function
Yutong Xie Mingze Yuan Bin Dong Quanzheng Li
研究问题:本文旨在提出一种新的方法,用于处理复杂的噪声模型的单图像去噪问题。
动机:目前的无监督学习方法在处理复杂噪声模型时存在限制。
方法:利用得分函数和对数概率梯度的性质,定义了一个去噪求解系统。一旦估计出噪声图像的得分函数,就可以通过求解系统得到去噪结果。该方法可以应用于多种噪声模型,如乘性加性混合噪声与结构化相关性的组合。
效果:实验结果表明,当噪声模型简单时,该方法与其他方法相当;在复杂情况下,其他方法不适用或性能较差时,该方法表现出良好的性能。
Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities
Jingyuan Sun Mingxiao Li Yunhao Zhang Marie-Francine Moens Zijiao Chen Shaonan Wang
研究问题:如何通过功能磁共振成像(fMRI)记录的神经反应解码视觉刺激,以理解人类视觉感知。
动机:fMRI信号的噪声性质和大脑视觉表示的复杂模式使得这一任务具有挑战性。
方法:提出了一个两阶段的fMRI表示学习框架。第一阶段使用提出的双对比掩码自动编码器预训练fMRI特征学习器以学习去噪表示。第二阶段调整特征学习器以关注对视觉重建最有益的神经激活模式,并使用图像自动编码器进行指导。优化后的fMRI特征学习器然后使潜在扩散模型根据大脑活动重建图像刺激。
效果:实验结果表明,我们的模型在生成高分辨率和语义准确的图像方面表现出优越性,在50类-top-1语义分类准确率上比之前最先进的方法提高了39.34%。代码实现将在https://github.com/soinx0629/vis_dec_neurips/上提供。
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation
Tong Wu Zhihao Fan Xiao Liu Hai-Tao Zheng Yeyun Gong yelong shen Jian Jiao Juntao Li zhongyu wei Jian Guo Nan Duan Weizhu Chen
研究问题:如何改进现有的自然语言模型,使其更好地捕捉到文本的序列依赖性。
动机:现有的大部分语言模型都是采用自回归的方式训练,而自然语言具有更强的序列依赖性。
方法:提出了一种自回归扩散(AR-Diffusion)模型,通过动态调整去噪步骤的数量,使生成的tokens能够根据其位置影响后续的生成过程。
效果:在文本摘要、机器翻译和常识生成等任务上,AR-Diffusion模型明显优于现有的扩散语言模型,并且在达到相同结果的情况下,速度可以提高$100\times\sim600times$。
Constructing Non-isotropic Gaussian Diffusion Model Using Isotropic Gaussian Diffusion Model for Image Editing
Xi Yu Xiang Gu Haozhi Liu Jian Sun
研究问题:本文旨在提出一种非均匀高斯扩散模型(NGDM),用于图像编辑,要求在编辑源图像的同时保留与编辑任务无关的图像区域。
动机:现有的基于分数的扩散模型在图像生成方面取得了最先进的结果,但需要进一步改进以适应图像编辑任务。
方法:通过向不同像素添加具有不同方差的独立高斯噪声来构建NGDM。然后,将NGDM矫正为具有不同像素的不同总前向扩散时间的各向同性高斯扩散模型。最后,设计一种采样方法,该方法从不同的时间开始对不同的像素进行逆扩散,以利用预训练的各向同性高斯扩散模型进行去噪并生成图像。
效果:实验结果表明,NGDM在图像编辑任务上实现了最先进的性能,同时考虑了源图像的保真度和与期望编辑目标的对齐之间的权衡。
UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild
Can Qin Shu Zhang Ning Yu Yihao Feng Xinyi Yang Yingbo Zhou Huan Wang Juan Carlos Niebles Caiming Xiong Silvio Savarese Stefano Ermon Yun Fu Ran Xu
研究问题:设计交互式AI系统时,实现机器自主性和人类控制往往是两个相互矛盾的目标。
动机:虽然视觉生成基础模型如稳定扩散在处理这些目标上显示出潜力,特别是在使用任意语言提示的情况下,但它们在生成具有空间、结构或几何控制的图像方面往往表现不佳。
方法:为此,我们引入了UniControl,这是一个新的生成基础模型,它将各种可控制的从条件到图像(C2I)任务整合在一个统一的框架中,同时仍然允许使用任意的语言提示。
效果:通过在预训练的文本到图像扩散模型上进行增强,并引入一个任务感知的超网络来调整扩散模型,使UniControl能够适应不同的C2I任务。在九个独特的C2I任务上进行训练后,UniControl展示了令人印象深刻的零样本生成能力,可以处理未见过的视频条件。实验结果表明,UniControl的性能经常超过同等规模单任务控制方法的表现。这种控制的多功能性使UniControl成为可控视觉生成领域的重要进步。
Graph Denoising Diffusion for Inverse Protein Folding
Kai Yi Bingxin Zhou Yiqing Shen Pietro Lio Yu Guang Wang
研究问题:逆蛋白质折叠由于其固有的一对多映射特性而具有挑战性,现有的判别模型难以捕捉到可能的解决方案的多样性。
动机:为了解决这一问题,我们提出了一种新的图去噪扩散模型,利用蛋白质骨架引导氨基酸残基类型的扩散过程。
方法:该模型通过节点的物理化学性质和局部环境来推断氨基酸的条件联合分布。同时,我们还利用氨基酸替换矩阵进行扩散前向过程,编码了氨基酸从其空间和序列邻居以及自身获得的生物学意义先验知识,从而减少了生成过程的采样空间。
效果:实验结果表明,我们的模型在序列恢复方面优于一组流行的基线方法,并在为确定的蛋白质骨架结构生成多样化的蛋白质序列方面具有巨大潜力。
Refining Diffusion Planner for Reliable Behavior Synthesis by Automatic Detection of Infeasible Plans
Kyowoon Lee Seongun Kim Jaesik Choi
研究问题:扩散模型在长期稀疏奖励任务中表现出良好的结果,但其生成的计划可能不可行,限制了其在安全关键应用中的使用。
动机:提出一种新的方法来优化由扩散模型生成的不可靠计划,通过提供错误倾向计划的优化指导。
方法:提出了一种名为恢复差距的新指标来评估扩散模型生成的单个计划的质量。并通过间隙预测器产生恢复差距指导以优化扩散规划器。同时,还提出了一个属性图正则化器,防止可能从次优间隙预测器产生的对抗性优化指导,使不可行的计划得到进一步优化。
效果:在需要长期规划的离线控制设置的三个不同基准上展示了该方法的有效性。同时,通过展示间隙预测器的属性图和突出显示错误倾向的转换,说明了该方法的可解释性,使人们能够更深入地理解生成的计划。
Dataset Diffusion: Diffusion-based Synthetic Data Generation for Pixel-Level Semantic Segmentation
Quang Ho Nguyen Truong Tuan Vu Anh Tuan Tran Khoi Nguyen
研究问题:如何有效地为深度视觉模型准备训练数据?
动机:生成对抗模型可以有效解决生成合成数据的问题,但目前的模型只能产生图像级别的类别标签。
方法:提出一种新颖的方法,利用文本到图像的生成模型Stable Diffusion(SD)生成像素级的语义分割标签。通过使用SD的文本提示、交叉注意力和自我注意力,引入了三种新技术:类别提示附加、类别提示交叉注意力和自我注意力指数化。这些技术使得我们能够生成与合成图像对应的分割图。
效果:在PASCAL VOC和MSCOCO两个数据集上进行评估,该方法显著优于同时期的工作。
Restart Sampling for Improving Generative Processes
Yilun Xu Mingyang Deng Xiang Cheng Yonglong Tian Ziming Liu Tommi S. Jaakkola
研究问题:解决涉及微分方程的生成过程(如扩散模型)通常需要在速度和质量之间取得平衡。
动机:基于ODE的采样器速度快但性能停滞,而基于SDE的采样器在提高采样质量的同时增加了采样时间。
方法:提出了一种名为“Restart”的新型采样算法,通过在额外的正向步骤中添加大量噪声和严格遵循反向ODE来更好地平衡离散化误差和收缩。
效果:实验结果表明,Restart采样器在速度和准确性上都超过了之前的SDE和ODE采样器。在CIFAR-10/ImageNet $64{times} 64$上,采样速度提高了10倍/2倍。此外,在与之前的采样器相比的时间范围内,它实现了比ODE采样器更好的采样质量。在大尺度文本到图像的稳定扩散模型中,它在文本-图像对齐/视觉质量和多样性方面也优于之前的采样器。代码可在https://github.com/Newbeeer/diffusion_restart_sampling获取。
Conditional Score Guidance for Text-Driven Image-to-Image Translation
Hyunsoo Lee Minsoo Kang Bohyung Han
研究问题:本文旨在提出一种基于预训练文本到图像扩散模型的文本驱动图像到图像翻译的新算法。
动机:现有的技术仅依赖于目标提示,而我们的方法引入了一个新的评分函数,同时考虑源图像和源文本提示,以适应特定的翻译任务。
方法:我们通过选择性编辑源图像的关注区域来生成目标图像,同时保留其余部分。我们还引入了一种简单而有效的混合技术,将源和目标潜在值产生的两个交叉注意力图进行融合。
效果:实验结果表明,我们的方法在各种任务上实现了优秀的图像到图像翻译性能。
Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models
Zhendong Wang Yifan Jiang Huangjie Zheng Peihao Wang Pengcheng He Zhangyang Wang Weizhu Chen Mingyuan Zhou
研究问题:如何减少扩散模型的训练时间成本并提高数据效率。
动机:现有的扩散模型需要大量的时间和数据进行训练,限制了其广泛应用。
方法:提出Patch Diffusion,一种通用的基于补丁的训练框架,通过在原始图像中加入补丁位置作为额外的坐标通道,并在训练过程中随机化和多样化补丁大小以编码多尺度的跨区域依赖性,显著减少了训练时间成本并提高了数据效率。
效果:Patch Diffusion可以在保持或提高生成质量的同时,将训练速度提高至少2倍。同时,Patch Diffusion也改善了在相对小的数据集上训练的扩散模型的性能,例如从零开始只需5000张图片进行训练。在与最先进的基准测试相比,我们的方法在FID分数上取得了出色的成绩。
Understanding and Mitigating Copying in Diffusion Models
Gowthami Somepalli Vasu Singla Micah Goldblum Jonas Geiping Tom Goldstein
研究问题:本文旨在解决文本到图像扩散模型中的数据复制问题。
动机:尽管人们普遍认为训练集中的重复图像是推理时内容复制的原因,但研究发现,模型的文本条件也起着同样重要的作用。
方法:通过在训练集上随机化和增强图像标题,提出几种减少数据复制的技术。
效果:实验结果表明,这些技术可以有效地减少训练和推理时的数据复制。
Where Did I Come From? Origin Attribution of AI-Generated Images
Zhenting Wang Chen Chen Yi Zeng Lingjuan Lyu Shiqing Ma
研究问题:如何准确判断特定图像是否由特定的生成模型生成,即图像来源归属。
动机:随着图像生成技术受到越来越多的关注,人们开始关注其可能的误用和知识产权侵权问题。因此,需要通过分析图像的来源来判断其是否由特定模型生成。
方法:我们开发了一种无需修改且与模型无关的图像来源归属方法,通过对图像生成模型进行逆向工程,即对特定模型的特定图像的输入进行反转。
效果:我们的方法能有效地区分特定生成模型生成的图像和其他图像(如其他模型生成的图像和真实图像),证实了其有效性。
On the choice of Perception Loss Function for Learned Video Compression
Sadaf Salehkalaibar Truong Buu Phan Jun Chen Wei Yu Ashish J Khisti
研究问题:本研究旨在探讨在输出受到均方误差(MSE)失真损失和感知损失影响时,如何进行因果、低延迟的序列视频压缩。
动机:受先前方法的启发,我们考虑了两种不同的感知损失函数(PLF)。第一种是PLF-JD,它考虑了当前帧之前的所有视频帧的联合分布;第二种是PLF-FMD,它考虑了源和重建之间的帧间边际分布。
方法:通过信息理论分析和基于深度学习的实验,我们证明了PLF的选择对重建效果有显著影响,尤其是在低比特率下。特别是,虽然基于PLF-JD的重建可以更好地保留帧间的 temporal correlation,但它与PLF-FMD相比在失真方面施加了显著的惩罚,并使其更难以从早期输出帧中的错误中恢复。
效果:尽管PLF的选择对重建质量有决定性影响,但我们证明在编码过程中不一定需要选择特定的PLF,而PLF的选择可以委托给解码器。特别是,通过训练一个系统最小化MSE(不需要任何PLF)生成的编码表示可以是“近乎通用”的,并且可以为解码器的任何PLF选择生成接近最优的重建。
Neural Circuits for Fast Poisson Compressed Sensing in the Olfactory Bulb
Jacob A Zavatone-Veth Paul Masset William Lingxiao Tong Joseph Zak Venkatesh N Murthy Cengiz Pehlevan
研究问题:如何通过压缩感知模型解决哺乳动物嗅觉系统在混乱气味流中解码气味身份和浓度的问题。
动机:目前的压缩感知模型未能捕捉到嗅觉系统的解剖学和生理学特性,也未证明能在一次嗅闻的100毫秒时间尺度内完成感知。
方法:提出一种基于速率的泊松压缩感知电路模型,该模型映射到嗅觉球的神经元类别,并再现了它们连接性和生理学的显著特征。
效果:对于与人嗅觉球相当的电路规模,该模型能在一次嗅闻的时间尺度内准确检测出数十种气味。同时,该模型可以进行贝叶斯后验采样以进行准确的不确定性估计。
Learning a 1-layer conditional generative model in total variation
Ajil Jalal Justin Kang Ananya Uppal Kannan Ramchandran Eric Price
研究问题:如何训练一种条件生成模型,以从条件分布中进行采样。
动机:现有的学习模型需要对输入分布做出假设,而本文提出的模型不需要这些假设。
方法:通过给定样本 $(x, y)$ 来学习一种单层ReLU条件生成模型,该模型能够逐步学习深层模型,且具有线性数量的样本。
效果:实验结果表明,该方法能够在各种任务上取得显著的改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Predict, Refine, Synthesize: Self-Guiding Diffusion Models for Probabilistic Time Series Forecasting
Marcel Kollovieh Abdul Fatir Ansari Michael Bohlke-Schneider Jasper Zschiegner Hao Wang Bernie Wang
研究问题:本文旨在探索无条件的时间序列扩散模型在各种时间序列任务中的应用潜力。
动机:现有的时间序列扩散模型主要针对特定的预测或插补任务进行条件建模,而本文则尝试开发一种无需特定任务的、无条件的时间序列扩散模型。
方法:本文提出了一种名为TSDiff的无条件训练的时间序列扩散模型,并设计了一种自我指导机制,使得该模型在推理阶段能够适应下游任务,而无需额外的网络或改变训练过程。
效果:实验结果表明,TSDiff在预测、优化和合成数据生成三种不同的时间序列任务上都表现出色,其性能与多种特定条件预测方法相当,且能以较低的计算开销对基础预测器的结果进行迭代优化。此外,利用TSDiff生成的合成样本训练的预测器的性能甚至超过了其他最先进的生成式时间序列模型,有时甚至超过了真实数据训练的模型。
Uncertainty Quantification via Neural Posterior Principal Components
Elias Nehme Omer Yair Tomer Michaeli
研究问题:如何有效地对图像恢复模型的不确定性进行量化,特别是在自动驾驶和生物成像等安全关键领域中。
动机:目前的不确定性可视化方法主要关注于每个像素的估计,然而这种方法通常缺乏实用性,因为它无法捕捉像素之间的强相关性。因此,需要一种更自然的方式来度量不确定性,即后验分布的主成分(PCs)的方差。
方法:本文提出了一种在单次神经网络前向传播中预测任何输入图像后验分布主成分的方法。该方法可以围绕一个预先训练的最小化均方误差(MSE)的模型进行,也可以从头开始训练以输出预测的图像和后验主成分。
效果:通过在多个图像逆问题(包括去噪、修复、超分辨率和生物图像转换)上展示该方法,证明了其能够可靠地传达实例自适应的不确定性方向,实现了与后验采样器相当的不确定性量化,同时速度快了几个数量级。
PHOTOSWAP: Personalized Subject Swapping in Images
Jing Gu Yilin Wang Nanxuan Zhao Tsu-Jui Fu Wei Xiong Qing Liu Zhifei Zhang HE Zhang Jianming Zhang HyunJoon Jung Xin Eric Wang
研究问题:如何实现在保持图像原有魅力和构图的同时,将现有图像中的特定主体替换为个人化的主体?
动机:在图片和视觉内容主导的数字时代,能够操作和个性化这些图像已经成为一种必要。
方法:提出了一种新的方法“Photoswap”,通过在现有图像中进行个性化的主题交换,实现了这种沉浸式的图像编辑体验。首先从参考图像中学习主题的视觉概念,然后使用预训练的扩散模型将其无缝地交换到目标图像中。
效果:实验表明,“Photoswap”在个性化主题交换方面具有高效性和可控性,并在人类评价中显著优于基线方法,显示出其广泛的应用潜力,从娱乐到专业编辑。
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models
Weijia Wu Yuzhong Zhao Hao Chen Yuchao Gu Rui Zhao Yefei He Hong Zhou Mike Zheng Shou Chunhua Shen
研究问题:如何有效地生成大规模的、多样化的合成数据集,并对其进行高质量的感知标注。
动机:目前的深度学习模型需要大量的数据进行训练,而收集和标注大规模数据集既耗时又耗力。相比之下,使用生成模型如DALL-E和扩散模型可以无限生成合成数据,且成本极低。
方法:本文提出了一个通用的数据集生成模型DatasetDM,该模型基于预训练的扩散模型,将文本引导的图像合成扩展到了感知数据生成。通过解码器模块,我们可以将丰富而准确的感知标注从扩散模型的丰富潜在代码中解码出来。
效果:实验结果表明,该方法在语义分割、实例分割和深度估计等下游任务上取得了最先进的结果。同时,与真实数据相比,这种方法在领域泛化方面更高效、更鲁棒。此外,该方法还具有在零样本分割设置中获得最先进的结果以及用于有效应用和新颖任务组合(如图像编辑)的灵活性。
Assessor360: Multi-sequence Network for Blind Omnidirectional Image Quality Assessment
Tianhe Wu Shuwei Shi Haoming Cai Mingdeng Cao Jing Xiao Yinqiang Zheng Yujiu Yang
研究问题:本文旨在解决现有全向图像质量评估(BOIQA)方法在没有原始质量图像信息的情况下,无法客观评估人类对全向图像的感知质量的问题。
动机:随着虚拟现实(VR)技术的不断发展,全向图像质量评估的重要性日益凸显。然而,现有的BOIQA方法由于缺乏对观察者浏览过程的建模,严重阻碍了其发展。
方法:本文提出了一种名为Assessor360的新型多序列网络进行BOIQA,该网络源于现实的多评估器全向图像质量评估过程。具体来说,我们提出了一种通用的递归概率采样(RPS)方法,结合内容和细节信息,从给定的起点生成多个伪视口序列。此外,我们还设计了一个带有畸变感知块(DAB)的多尺度特征聚合(MFA)模块,以融合每个视口的畸变和语义特征。我们还设计了时间建模模块(TMM)来学习视口在时间域中的转换。
效果:大量的实验结果表明,Assessor360在多个全向图像质量评估数据集上优于最先进的方法。代码和模型可在https://github.com/TianheWu/Assessor360获取。
Bootstrapped Training of Score-Conditioned Generator for Offline Design of Biological Sequences
Minsu Kim Federico Berto Sungsoo Ahn Jinkyoo Park
研究问题:优化生物序列(如蛋白质、DNA和RNA)以最大化离线数据集中的黑盒得分函数。
动机:现有的方法无法有效优化生物序列,因此提出新的解决方案。
方法:提出了一种名为“得分条件生成器引导训练”(BootGen)的新算法。该算法通过基于排名的权重训练生物序列生成器以提高高得分下的序列生成准确性,并通过自生成数据扩充训练数据集,使用代理得分函数进行标记。
效果:在生物序列设计任务上,该方法优于竞争性基线,提供了可复现的源代码。
Can Pre-Trained Text-to-Image Models Generate Visual Goals for Reinforcement Learning?
Jialu Gao Kaizhe Hu Guowei Xu Huazhe Xu
研究问题:如何利用预训练的文本到图像生成模型和先进的图像编辑技术来指导机器人学习。
动机:相比于语言,图像通常能更详细且不含糊地传达信息。因此,我们提出了一种名为“Learning from the Void”的方法,该方法利用预训练的文本到图像模型和先进的图像编辑技术的力量来指导机器人学习。
方法:给定自然语言指令,LfVoid可以编辑原始观察结果以获取目标图像,例如“擦拭”桌子上的污渍。然后,LfVoid在生成的图像上训练一个集成的目标判别器,为强化学习代理提供奖励信号,引导其实现目标。
效果:我们在三个模拟任务中评估了LfVoid,并在相应的真实世界场景中验证了其可行性。此外,我们还提供了关于有效整合视觉生成模型到机器人学习工作流程的关键考虑因素的见解。我们认为这项工作代表了预训练的视觉生成模型在机器人领域更广泛应用的第一步。
Global Structure-Aware Diffusion Process for Low-light Image Enhancement
Jinhui HOU Zhiyu Zhu Junhui Hou Hui LIU Huanqiang Zeng Hui Yuan
研究问题:本文旨在解决低光图像增强问题。
动机:现有的扩散模型在处理低光图像时,可能会产生噪声和伪影,影响图像质量。
方法:本文提出了一种基于扩散的框架,通过引入曲率正则化项和不确定性引导的正则化技术,来保护图像的复杂细节并增强对比度,同时减少噪声和伪影的影响。
效果:实验结果表明,该框架在低光图像增强方面取得了显著的性能提升,其图像质量、噪声抑制和对比度增强等方面均优于现有方法。
Cocktail: Mixing Multi-Modality Control for Text-Conditional Image Generation
Minghui Hu Jianbin Zheng Daqing Liu Chuanxia Zheng Chaoyue Wang Dacheng Tao Tat-Jen Cham
研究问题:本文旨在解决文本引导扩散模型在描述预期目标图像时语言表示模糊的问题,需要引入额外的控制信号以提高其效果。
动机:目前的文本引导扩散模型在生成高质量、多样化内容的图像方面表现出色,但由于语言表示对预期目标图像的描述常常模糊不清,因此需要引入额外的控制信号来提高其效果。
方法:本文提出了Cocktail模型,该模型将各种模态混合成一个嵌入,并结合了一个通用的控制网络(gControlNet)、一个可控的归一化(ControlNorm)和一个空间引导采样方法,以实现多模态和空间精细化的控制。具体来说,我们引入了一个超网络gControlNet,专门用于将来自不同模态的控制信号对齐并注入预训练的扩散模型中。
效果:实验结果表明,我们的方法在控制各种模态方面表现出色,能够生成高质量的合成图像,并对多种外部信号保持高保真度。
Implicit Transfer Operator Learning: Multiple Time-Resolution Models for Molecular Dynamics
Mathias Schreiner Ole Winther Simon Olsson
研究问题:如何更准确地估计分子系统的Boltzmann分布,并实现对不同时间尺度的模拟过程进行快速和准确的建模?
动机:现有的分子动力学模拟方法需要非常小的时间步长才能保持稳定,但某些物理量的收敛可能需要更长的时间尺度。此外,每种分子系统都需要单独进行模拟。
方法:提出了Implict Transfer Operator (ITO)学习框架,通过使用去噪扩散概率模型和新的SE(3)等变架构,实现了对多时间尺度模拟过程的学习和建模。
效果:所提出的模型可以在多个时间尺度上生成一致的随机动力学,即使系统只有部分被观察。同时,还提出了一种粗粒化的CG-SE3-ITO模型,可以使用仅包含粗分子表示的方法对全原子分子动力学进行定量建模。因此,ITO为实现多时间和空间分辨率的分子动力学加速提供了重要步骤。
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion
Robin San Roman Yossi Adi Antoine Deleforge Romain Serizel Gabriel Synnaeve Alexandre Défossez
研究问题:如何利用深度生成模型从低比特率离散表示中生成高保真音频?
动机:目前的生成模型在生成音频时,如果条件有误或不完美,容易产生可听的人工痕迹。而扩散模型虽然能够生成相对低采样率的信号,但主要用于语音编码器或生成特定类型的音频。
方法:提出一种基于多频段扩散的高保真音频生成框架,可以从低比特率离散表示中生成任何类型的音频(如语音、音乐、环境声音)。
效果:在相同比特率下,该方法在感知质量上优于最先进的生成技术。训练和评估代码可在facebookresearch/audiocraft github项目中找到,样本可在https://ai.honu.io/papers/mbd/查看。
Idempotent Learned Image Compression with Right-Inverse
Yanghao Li Tongda Xu Yan Wang Jingjing Liu Ya-Qin Zhang
研究问题:本文旨在解决学习式图像压缩的幂等性问题。
动机:现有的编解码器在重压缩稳定性方面存在不足,即缺乏幂等性。
方法:本文首先提出将变换的可逆性放宽为右可逆性,并使用提出的分块卷积和零空间增强实现了一种幂等编解码器。
效果:实验结果表明,该编解码器在幂等编解码器中具有最先进的率失真性能。此外,通过放宽右可逆性,该编解码器还可以扩展为近幂等编解码器,与其他近幂等编解码器相比,经过50轮重压缩后质量衰减明显较小。
PUCA: Patch-Unshuffle and Channel Attention for Enhanced Self-Supervised Image Denoising
Hyemi Jang Junsung Park Dahuin Jung Jaihyun Lew Ho Bae Sungroh Yoon
研究问题:尽管有监督的图像去噪网络在合成噪声图像上表现出了显著的性能,但由于真实世界和合成噪声的差异,它们在实践中往往失败。
动机:由于从现实世界收集干净-有噪声的图像对的成本极高,因此研究了利用噪声输入本身作为目标的自监督学习。为了防止自监督去噪模型学习到相同的映射,每个输出像素不应受其对应输入像素的影响,这一要求被称为J不变性。
方法:我们提出了一种新的J不变性U-Net架构PUCA,用于自监督去噪。PUCA利用补丁-unshuffle/shuffle来大幅扩展感受野,同时保持J不变性和引入全局上下文的扩张注意力块(DABs)。
效果:实验结果表明,PUCA实现了最先进的性能,超过了现有的自监督图像去噪方法。
VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion Models
Sheng-Yen Chou Pin-Yu Chen Tsung-Yi Ho
研究问题:本文旨在解决当前预训练语言模型对结构化知识的利用不足,以及扩散模型容易受到恶意输入模式触发的后门攻击的问题。
动机:为了提高语言模型的性能和安全性,本文提出了一种结合知识图谱的增强语言表示模型ERNIE,并设计了一种针对扩散模型的统一后门攻击框架VillanDiffusion。
方法:采用大规模文本语料库和知识图谱训练ERNIE模型,将KG中的知识与文本语料库进行联合训练;设计了一种针对扩散模型的统一后门攻击框架VillanDiffusion,用于评估不同DM配置的安全性。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并在其他常见的NLP任务上与最先进的BERT模型相媲美;VillanDiffusion框架有助于分析不同DM配置的安全性,为对抗扩散模型的后门攻击提供了新的见解。
Deep Optimal Transport: A Practical Algorithm for Photo-realistic Image Restoration
Theo Joseph Adrai Guy Ohayon Michael Elad Tomer Michaeli
研究问题:本文旨在提出一种图像恢复算法,该算法可以控制任何预训练模型的感知质量或均方误差(MSE),并在测试时进行权衡。
动机:由于最近的理论结果将最小均方误差(MMSE)预测器与在完美感知质量约束下最小化MSE的预测器联系起来,因此我们的方法受到启发。具体来说,已经证明,通过最优传输MMSE预测器的输出,使其分布匹配源数据,可以获得后者。
方法:为了提高最初训练以最小化MSE的预测器的感知质量,我们在变分自动编码器的潜空间中近似最优传输,使用经验均值和协方差来计算闭型形式。
效果:我们在各种通用内容图像上应用了不同的退化方法,并展示了该方法的效果。实验结果表明,我们的算法可以在不需要进一步训练的情况下显著提高新恢复图像的感知质量和/或MSE。
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths
Zeyue Xue Guanglu Song Qiushan Guo Boxiao Liu Zhuofan Zong Yu Liu Ping Luo
研究问题:本文旨在利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Lossy Image Compression with Conditional Diffusion Models
Ruihan Yang Stephan Mandt
研究问题:本文旨在提出一种使用扩散生成模型的端到端优化的有损图像压缩框架。
动机:现有的基于VAE的神经网络压缩方法中,解码器是一个确定性神经网络,而我们的方法中的解码器是一个条件扩散模型,可以更好地存储图像信息。
方法:该方法采用变换编码范式,将图像映射到潜在空间进行熵编码,然后从那里映射回数据空间进行重建。我们的解码器是一个条件扩散模型,引入了一个额外的“内容”潜在变量来存储图像信息。
效果:实验结果表明,该方法在多个数据集和图像质量评估指标上的表现优于基于GAN的模型,同时在一些失真指标上也与基于VAE的模型具有竞争力。此外,通过 $mathcal{X}$ 参数化训练扩散模型,只需少数几个解码步骤就可以实现高质量的重建,大大提高了模型的实用性。
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds
Yanyu Li Huan Wang Qing Jin Ju Hu Pavlo Chemerys Yun Fu Yanzhi Wang Sergey Tulyakov Jian Ren
研究问题:如何降低运行文本到图像扩散模型的计算成本,使其能在移动设备上快速运行。
动机:现有的文本到图像扩散模型需要复杂的网络结构和大量的去噪迭代,计算成本高且运行速度慢,需要高端GPU和基于云的推理,这既昂贵又存在隐私问题。
方法:提出一种通用的方法,通过引入高效的网络架构和改进步蒸馏来运行文本到图像扩散模型。具体来说,我们通过数据蒸馏减少原始模型的计算量,提出了一种有效的UNet。此外,我们还通过探索训练策略和引入无分类器指导的正则化来增强步蒸馏。
效果:在MS-COCO数据集上的大量实验表明,我们的模型在8步去噪的情况下,FID和CLIP分数均优于Stable Diffusion v1.5的50步。我们的工作使强大的文本到图像扩散模型能够被用户使用,从而推动了内容创作的民主化。
Do SSL Models Have Déjà Vu? A Case of Unintended Memorization in Self-supervised Learning
Casey Meehan Florian Bordes Pascal Vincent Kamalika Chaudhuri Chuan Guo
研究问题:本文旨在研究自监督学习(SSL)模型中对图像特定信息的无意记忆现象,即“似曾相识”的记忆。
动机:当SSL模型走向极端时,可能会无意中记住训练样本中的特定部分,而不是学习语义上有意义的关联。这种现象可能带来未知的隐私风险。
方法:通过系统地研究SSL模型中的“似曾相识”的记忆现象,展示即使在只含有背景(如水、天空、草地)的训练图像裁剪下,也能以高准确度推断出前景物体,甚至视觉重建它。
效果:研究发现“似曾相识”的记忆现象普遍存在于不同的SSL算法中,某些设计选择会加剧这种现象,且无法通过传统的评估表示质量的技术来检测。这项研究揭示了SSL模型中以前未知的隐私风险,并提出了潜在的实际缓解策略。
3D molecule generation by denoising voxel grids
Pedro O. Pinheiro Joshua Rackers joseph Kleinhenz Michael Maser Omar Mahmood Andrew Martin Watkins Stephen Ra Vishnu Sresht Saeed Saremi
研究问题:提出一种新的基于得分的方法,将3D分子表示为在规则网格上的原子密度。
动机:现有的分子生成方法与当前最先进的技术(即应用于原子点云的扩散模型)在数据表示、噪声模型、网络架构和生成建模算法等方面存在差异。
方法:首先训练一个去噪神经网络,学习从噪声分子的平滑分布映射到真实分子的分布。然后按照神经经验贝叶斯框架[Saremi和Hyvarinen,2019]分两步生成分子:(i)通过欠阻尼Langevin马尔可夫链蒙特卡罗从平滑分布中采样噪声密度网格,(ii)通过一步去噪从噪声网格恢复“清洁”分子。
效果:该方法称为VoxMol,其实验表明,VoxMol能更好地捕捉药物类分子的分布,同时生成样本的速度更快。
Learning Re-sampling Methods with Parameter Attribution for Image Super-resolution
Xiaotong Luo Yuan Xie Yanyun Qu
研究问题:现有的单图像超分辨率(SISR)方法主要关注网络架构设计和优化方案,而对训练数据的关注度不高。
动机:大多数现有的SR方法在整个图像上均匀地采样补丁对进行训练,但图像内容不均匀导致训练数据分布不平衡,即易重构区域(平滑)占据了大部分数据,而难以重构的区域(边缘或纹理)样本却很少。
方法:本文提出了一种简单而有效的双采样参数归因(BSPA)方法用于精确的图像SR。具体来说,双采样包括均匀采样和反向采样,旨在调和固有的数据偏差。前者保持内在数据分布,后者设计用于增强模型在困难样本上的特征提取能力。此外,引入综合梯度来归因于两种采样数据训练的交替模型中每个参数的贡献,以便过滤掉无关紧要的参数进行进一步的动态细化。通过逐步解耦参数分配,SR模型可以学习更紧凑的表示。
效果:在公开数据集上的大量实验表明,我们的方法可以从数据重新采样的角度有效地提高基线方法的性能。
DiffPack: A Torsional Diffusion Model for Autoregressive Protein Side-Chain Packing
Yangtian Zhang Zuobai Zhang Bozitao Zhong Sanchit Misra Jian Tang
研究问题:如何准确预测蛋白质侧链的构象,这对于蛋白质结构预测、设计和蛋白质-蛋白质相互作用的应用至关重要。
动机:传统的计算方法既耗时又耗力,而现有的机器学习方法将此问题视为回归任务,忽视了由恒定共价键长度和角度施加的限制。
方法:我们提出了DiffPack,一种扭转扩散模型,通过在扭转空间上进行扩散和去噪来学习侧链扭转角的联合分布,这是侧链包装中唯一的自由度。为了避免同时扰动所有四个扭转角的问题,我们提出从$\chi_1$到$\chi_4$自动生成四个扭转角,并为每个扭转角训练扩散模型。
效果:我们在几个蛋白质侧链包装基准测试上评估了该方法,结果显示,我们的模型在CASP13和CASP14上的角精度分别提高了11.9%和13.5%,并且模型大小显著减小(参数减少了60倍)。此外,我们还展示了该方法在增强AlphaFold2模型中的侧链预测方面的有效性。
Inserting Anybody in Diffusion Models via Celeb Basis
Ge Yuan Xiaodong Cun Yong Zhang Maomao Li Chenyang Qi Xintao Wang Ying Shan Huicheng Zheng
研究问题:如何将用户自身的独特概念定制化地融入到预训练的大型文本到图像模型中,如Stable Diffusion。
动机:现有的定制方法添加的新概念在训练过程中与原始概念的结合能力较弱。
方法:提出一种新的个性化方法,仅使用一张面部照片和1024个可学习的参数,在3分钟内将独特的个体无缝集成到预训练的扩散模型中。
效果:新的身份在我们的定制模型中展示了比先前的个性化方法更好的概念结合能力,并且可以同时学习几个新的身份并进行交互。
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
Yuseung Lee Kunho Kim Hyunjin Kim Minhyuk Sung
研究问题:现有的图像扩散模型在拼接多张图片时,结果中常常出现明显的接缝,且混合场景的输出结果往往不连贯。
动机:为了解决这一问题,我们提出了SyncDiffusion,一个通过梯度下降从感知相似度损失进行多扩散同步的即插即用模块。
方法:我们计算每个去噪步骤预测的去噪图像的感知损失的梯度,为生成连贯的蒙太奇提供有意义的指导。
效果:实验结果表明,我们的方法比之前的方法产生的输出结果更加连贯(在我们的用户研究中为66.35%对比33.65%),同时保持了保真度和与输入提示的兼容性。我们在三个即插即用的应用程序中展示了该方法的通用性:布局引导的图像生成、条件图像生成和360度全景生成。
Norm-guided latent space exploration for text-to-image generation
Dvir Samuel Rami Ben-Ari Nir Darshan Haggai Maron Gal Chechik
研究问题:本文旨在解决当前扩散模型中初始种子的潜在空间结构及其对各种概念生成的影响,以及在种子操作方法中存在的问题。
动机:目前的扩散模型在种子操作方法上存在问题,如简单的插值和寻找一组种子的质心等操作在标准的欧几里得或球形潜在空间度量中表现不佳。此外,现有的训练程序导致扩散模型观察到的输入具有狭窄的范数值范围,这对依赖种子操作进行图像生成的方法产生了影响,尤其是在少量样本和长尾学习任务中的应用。
方法:为解决这个问题,本文提出了一种新的插值方法,该方法定义了一种新的非欧几里得度量,该度量考虑了基于种子的范数先验。同时,描述了一种简单而有效的算法来近似这个插值过程,并使用它进一步定义了潜在种子空间中的质心。
效果:实验结果表明,新的插值和质心技术显著提高了罕见概念图像的生成能力,并在少量样本和长尾基准测试上取得了最先进的性能,无论是在生成速度、图像质量还是语义内容方面,都优于先前的方法。
UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models
Wenliang Zhao Lujia Bai Yongming Rao Jie Zhou Jiwen Lu
研究问题:扩散概率模型(DPMs)在高分辨率图像合成中表现出强大的能力,但预训练的DPM采样过程耗时长,因为需要多次评估去噪网络。
动机:尽管现有的快速采样器设计取得了进展,但在许多应用中,它们仍然无法生成满意的图像,特别是在步骤较少的情况下(如10步)。
方法:本文开发了一种统一的校正器(UniC),可以应用于任何现有的DPM采样器之后,以提高精度而不进行额外的模型评估。同时,还推导出一种支持任意阶数的统一预测器(UniP)。结合UniP和UniC,提出了一种用于DPM快速采样的统一预测器-校正器框架(UniPC)。
效果:通过广泛的实验,包括使用像素空间和潜在空间DPM的无条件和有条件采样,验证了我们的方法。我们的UniPC在只有10次函数评估的情况下,就可以在CIFAR10上实现3.87 FID(无条件),在ImageNet 256x256上实现7.51 FID(有条件)。代码可在https://github.com/wl-zhao/UniPC获取。
Learning Modulated Transformation in GANs
Ceyuan Yang Qihang Zhang Yinghao Xu Jiapeng Zhu Yujun Shen Bo Dai
研究问题:如何提高风格生成器在处理数据中的跨实例变化和几何变形方面的能力?
动机:现有的风格生成器通过固定位置的卷积引入实例随机性,限制了其对几何变形的建模能力。
方法:提出一种模块化转换模块(MTM),通过可变的卷积操作位置来处理不同实例的几何变形,为模型提供额外的自由度。
效果:实验表明该方法可以广泛应用于各种生成任务,包括图像生成、3D感知图像合成和视频生成,并在无需任何超参数调整的情况下与最先进的框架兼容。在具有挑战性的太极数据集上,将StyleGAN3的FID从21.36提高到13.60,证明了学习调制几何变换的有效性。
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing
Dongxu Li Junnan Li Steven Hoi
研究问题:如何提高基于文本提示的主题驱动文本到图像生成模型的生成效率和主题保真度?
动机:现有的主题驱动文本到图像生成模型在微调过程长且难以保持主题一致性的问题。
方法:提出BLIP-Diffusion,一种新主题驱动的图像生成模型,支持多模态控制,即输入主题图像和文本提示。该模型引入了新的多模态编码器,预训练以提供主题表示。
效果:与DreamBooth等先前的方法相比,BLIP-Diffusion实现了零样本主题驱动生成,并且可以灵活地与ControlNet和prompt-to-prompt等现有技术结合,实现新颖的主题驱动生成和编辑应用。
Improving Diffusion-Based Image Synthesis with Context Prediction
Ling Yang Jingwei Liu Shenda Hong Zhilong Zhang Zhilin Huang Zheming Cai Wentao Zhang Bin CUI
研究问题:现有的扩散模型主要通过像素或特征的约束来重建输入图像,但这种方法可能会研究问题:现有的扩散模型主要通过像素或特征的约束来重建输入图像,但这种方法可能会破坏每个预测像素/特征的邻域上下文,影响基于扩散的图像合成。
动机:为了解决上述问题,我们首次提出了ConPreDiff模型,利用上下文预测来改进基于扩散的图像合成。
方法:在训练阶段,我们在扩散去噪块的末端添加一个上下文解码器,使每个点都能预测其邻域上下文(即多步长的像素/特征)。在推理阶段,我们移除解码器。这样,每个点就能更好地重建自身,同时保留与邻域上下文的语义连接。
效果:我们的ConPreDiff模型在无条件图像生成、文本到图像生成和图像修复任务上表现出色。在MS-COCO数据集上,我们的模型实现了新的SOTA文本到图像生成结果,零样本FID得分为6.21。
Crystal Structure Prediction by Joint Equivariant Diffusion
Rui Jiao Wenbing Huang Peijia Lin Jiaqi Han Pin Chen Yutong Lu Yang Liu
研究问题:本文旨在解决科学领域中的晶体结构预测(CSP)问题,由于晶体结构的对称性,这个问题具有独特的挑战。
动机:虽然现有的生成模型(如扩散模型)可以用来解决CSP问题,但由于晶体结构的对称性——平移、旋转和周期性的不变性,这个问题遇到了独特的挑战。
方法:本文提出了一种新的扩散模型DiffCSP,通过使用周期性E(3)等变去噪模型来学习稳定晶体的结构分布,以更好地模拟晶体几何形状。
效果:实验结果表明,我们的DiffCSP显著优于现有的CSP方法,与基于密度泛函理论(DFT)的方法相比,计算成本更低。此外,当扩展到从头开始生成晶体时,DiffCSP的优势依然明显。
Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation
Yuval Kirstain Adam Polyak Uriel Singer Shahbuland Matiana Joe Penna Omer Levy
研究问题:如何收集大规模的人类文本-图像偏好数据集,并利用这些数据进行模型评估和优化。
动机:由于大型的人类文本-图像偏好数据集通常由公司持有,导致公众无法访问。为了解决这个问题,我们创建了一个网络应用程序,使文本-图像用户能够生成图像并指定他们的偏好。
方法:我们使用这个网络应用程序构建了Pick-a-Pic,这是一个大型的、开放的文本-图像提示和真实用户对生成的图像偏好的数据集。然后,我们利用这个数据集训练了一个基于CLIP的评分函数PickScore,它在预测人类偏好的任务上表现出超人的性能。
效果:我们的实验结果表明,PickScore在执行模型评估方面的能力比其他自动评估指标更能与人类的排名相吻合。因此,我们建议使用PickScore来评估未来的文本-图像生成模型,并使用Pick-a-Pic提示作为比MS-COCO更相关的数据集。最后,我们展示了PickScore如何通过排名来增强现有的文本-图像模型。
Contrastive Sampling Chains in Diffusion Models
Junyu Zhang Daochang Liu Shichao Zhang Chang Xu
研究问题:如何减少在使用扩散模型生成高保真图像时,由于数值求解器解决随机微分方程产生的离散化误差。
动机:离散化误差是在使用数值求解器解决随机微分方程时不可避免的限制。
方法:通过对比损失和得分匹配的组合,构建一个对比采样链来微调预训练的扩散模型,以减小离散化误差,从而缩小真实数据分布与模型分布之间的差距。
效果:在CIFAR10上的应用实验表明,该方法可以显著提高生成图像的质量,并减少所需的神经函数评估次数。
DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation
Qingkai Fang Yan Zhou Yang Feng
研究问题:如何实现高质量且快速的语音翻译。
动机:由于语言和声学多样性,目标语音遵循复杂的多模态分布,这对语音到语音的翻译模型提出了挑战。
方法:提出DASpeech,一种非自回归的直接语音翻译模型,通过双阶段架构将生成过程分解为两步,先由语言解码器生成目标文本,再由声学解码器根据语言解码器的隐藏状态生成目标语音。
效果:在CVSS Fr$rightarrow$En基准测试中,DASpeech的性能与最先进的S2ST模型Translatotron 2相当甚至更好,同时比自回归基线快18.53倍。与先前的非自回归S2ST模型相比,DASpeech在翻译质量和解码速度上都取得了显著改进,并能保留源语音的说话人声音。
Efficient Test-Time Adaptation for Super-Resolution with Second-Order Degradation and Reconstruction
Zeshuai Deng Zhuokun Chen Shuaicheng Niu Thomas H. Li Bohan Zhuang Mingkui Tan
研究问题:如何利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
A Unified Conditional Framework for Diffusion-based Image Restoration
Yi Zhang Xiaoyu Shi Dasong Li Xiaogang Wang Jian Wang Hongsheng Li
研究问题:如何将条件信息整合到扩散概率模型中,以指导图像恢复任务。
动机:现有的扩散概率模型在图像生成任务上表现出色,但在图像恢复任务中,如何整合条件信息以提高准确性和自然性是一个被忽视的问题。
方法:提出了一种基于扩散模型的统一条件框架进行图像恢复。利用轻量级的UNet预测初始引导,并使用扩散模型学习引导的残差。通过精心设计扩散模型块的基本模块和集成模块,将引导和其他辅助条件信息整合到每个扩散模型块中,实现空间自适应生成条件。为处理高分辨率图像,提出了一种简单而有效的跨步分片策略,以产生任意分辨率的图像,无网格伪影。
效果:在极端低光去噪、去模糊和JPEG恢复三个具有挑战性的任务上评估了该条件框架,证明了其在感知质量和泛化到恢复任务方面的显著改进。
StyleDrop: Text-to-Image Synthesis of Any Style
Kihyuk Sohn Lu Jiang Jarred Barber Kimin Lee Nataniel Ruiz Dilip Krishnan Huiwen Chang Yuanzhen Li Irfan Essa Michael Rubinstein Yuan Hao Glenn Entis Irina Blok Daniel Castro Chin
研究问题:如何利用预训练的大规模文本到图像模型,通过适当的文本提示合成令人印象深刻的图像?
动机:自然语言的固有模糊性和分布外效应使得难以合成任意的图像风格,利用特定的设计模式、纹理或材料。
方法:引入*StyleDrop*,一种能够使用文本到图像模型忠实地遵循特定风格的图像合成方法。StyleDrop非常灵活,能捕捉用户提供的风格的细节和细微差别,如色彩方案、阴影、设计模式以及局部和全局效果。
效果:通过高效地学习新风格并微调少量可训练参数(少于总模型参数的1%),并通过人或自动化反馈进行迭代训练来提高质量,StyleDrop即使在用户提供的指定风格的单一图像上也能产生出色的结果。在风格调整文本到图像模型的任务中,StyleDrop在Muse上的表现优于其他方法,包括DreamBooth和Imagen或Stable Diffusion的文本反转。
Unsupervised Protein-Ligand Binding Energy Prediction via Neural Euler's Rotation Equation
Wengong Jin Siranush Sarkizova Xun Chen Nir Hacohen Caroline Uhler
研究问题:本文旨在解决蛋白质-配体结合预测问题,特别是在标签数据有限的抗体类配体中。
动机:传统的监督学习方法在小分子配体上表现良好,但在标签数据有限的抗体类配体上难以应用。因此,本文探索了无监督学习方法,并将结合能预测转化为生成模型任务。
方法:本文使用SE(3)去噪得分匹配(DSM)在一组未标记的蛋白质-配体复合物上训练能量模型,并将其对数似然度解释为结合能。主要贡献是提出了一种新的等变旋转预测网络——神经欧拉旋转方程(NERE),用于SE(3) DSM。
效果:通过两个蛋白质-配体和抗体-抗原结合亲和力预测基准测试,本文表明NERE在所有情况下均优于所有无监督基线(基于物理的潜力和蛋白质语言模型),并在抗体案例中超越了监督基线。
Censored Sampling of Diffusion Models Using 3 Minutes of Human Feedback
TaeHo Yoon Kibeom Myoung Keon Lee Jaewoong Cho Albert No Ernest K. Ryu
研究问题:预训练的扩散模型在高质量图像生成上表现出色,但有时会产生不想要的图像,如何防止这种情况?
动机:通过最小化人工反馈训练奖励模型,实现对预训练扩散模型的审查生成。
方法:使用奖励模型和少量人工反馈进行审查生成。
效果:证明了审查生成可以通过极高效率的人工反馈完成,仅需要几分钟的人工反馈即可生成标签。
GlyphControl: Glyph Conditional Control for Visual Text Generation
Yukang Yang Dongnan Gui Yuhui Yuan Weicong Liang Haisong Ding Han Hu Kai Chen
研究问题:开发一种基于扩散的文本到图像生成模型,能够生成连贯且格式良好的视觉文本。
动机:现有的方法需要依赖字符感知的文本编码器,并且需要重新训练文本到图像模型,我们的方法通过引入额外的字形条件信息来提高现有的Stable-Diffusion模型在生成准确视觉文本上的性能。
方法:我们提出了一种名为GlyphControl的新方法,通过引入字形指令,用户可以根据他们的特定需求自定义生成的文本的内容、位置和大小。
效果:通过测量生成的视觉文本的OCR基准指标、CLIP分数和FID,我们的实证评估表明,GlyphControl在OCR准确性、CLIP分数和FID方面优于最近的DeepFloyd IF方法,突出了我们方法的有效性。
HubRouter: Learning Global Routing via Hub Generation and Pin-hub Connection
Xingbo Du Chonghua Wang Ruizhe Zhong Junchi Yan
研究问题:本文旨在解决VLSI系统中的核心任务——全局布线(Global Routing, GR)的问题,特别是如何通过机器学习方法生成确定性连接的路由。
动机:尽管生成模型在全局布线任务中得到了应用,但由于生成的路由之间缺乏连通性,需要通过传统方法进行后处理。因此,作者提出了一种新的定义“hub”,将全局布线问题从pin-pin连接问题转变为hub-pin连接问题。
方法:本文提出了一种名为HubRouter的两阶段学习方案,包括1) hub生成阶段:使用深度生成模型的条件引导hub生成器;2) pin-hub连接阶段:使用actor-critic模型的RSMT构建模块连接hub和pin。在第一阶段,我们将典型的生成模型纳入多任务学习框架进行hub生成,并使用带状掩模学习解决敏感噪声点的影响。在第二阶段,HubRouter使用actor-critic模型完成路由,该方法效率高且错误极小。
效果:实验在模拟和实际的全局布线基准上进行,结果显示HubRouter在导线长度、溢出和运行时间等方面优于最先进的生成式全局布线方法。此外,HubRouter在其他应用如RSMT构建和交互式路径重规划方面也表现出优势。
Controlling Text-to-Image Diffusion by Orthogonal Finetuning
Zeju Qiu Weiyang Liu Haiwen Feng Yuxuan Xue Yao Feng Zhen Liu Dan Zhang Adrian Weller Bernhard Schölkopf
研究问题:如何有效地引导强大的文本到图像扩散模型执行不同的下游任务。
动机:现有的方法无法有效控制这些强大的模型,因此需要一种原则性的微调方法来适应下游任务。
方法:引入了一种称为正交微调(OFT)的原则性微调方法,通过保持超球面上的双神经元关系来保留文本到图像扩散模型的语义生成能力。
效果:实验结果表明,OFT框架在生成质量和收敛速度上都优于现有方法。
One-Step Diffusion Distillation via Deep Equilibrium Models
Zhengyang Geng Ashwini Pokle J Zico Kolter
研究问题:如何将扩散模型快速地训练成高质量的图像生成模型。
动机:现有的方法在训练过程中需要多次迭代,且训练过程复杂,导致生成模型性能不佳。
方法:提出了一种新的方法,通过直接从初始噪声到生成图像来蒸馏扩散模型,并利用深度平衡(DEQ)模型作为蒸馏架构——生成平衡变压器(GET)。该方法仅使用扩散模型的噪声/图像对进行完全离线训练,并在同等训练预算下,比现有一步法方法具有更好的性能。
效果:GET在FID分数上匹配了5倍大的ViT,同时在计算成本和图像质量之间取得了关键平衡。
Decorate3D: Text-Driven High-Quality Texture Generation for Mesh Decoration in the Wild
Yanhui Guo Xinxin Zuo Peng Dai Juwei Lu Xiaolin Wu Li Cheng Youliang Yan Songcen Xu Xiaofei Wu
研究问题:本文旨在提出一种使用图像创建和编辑3D对象的多功能、用户友好的方法。
动机:现有的3D对象创建和编辑方法需要专业知识,且过程复杂。
方法:Decorate3D通过神经辐射场(NeRF)对真实世界的物体进行建模,并将其分解为显式网格表示、视依赖纹理和漫反射UV纹理。然后,用户可以手动编辑UV,或提供提示以自动生成新的3D一致纹理。
效果:通过结构感知的分数蒸馏采样方法和几视图重采样训练方法,以及利用超分辨率模型获取高分辨率(2048x2048)的UV纹理,Decorate3D在重新纹理化真实世界的3D对象方面表现出优越的性能。
Unifying GANs and Score-Based Diffusion as Generative Particle Models
Jean-Yves Franceschi Mike Gartrell Ludovic Dos Santos Thibaut Issenhuth Emmanuel de Bezenac Mickael Chen Alain Rakotomamonjy
研究问题:本文旨在通过将生成器训练视为粒子模型的泛化,统一粒子和对抗性生成模型。
动机:虽然梯度流和基于分数的扩散模型等基于粒子的深度生成模型由于其出色的性能而受到关注,但它们使用微分方程来移动粒子分布的原理通常被视为与之前广泛使用的生成对抗网络(GANs)相反,后者涉及训练一个前向生成器网络。
方法:本文提出了一个新的框架,通过将生成器训练视为粒子模型的泛化,统一了粒子和对抗性生成模型。
效果:实验结果表明,这种新的框架是可行的,并且可以自然地将生成器集成到基于分数的扩散模型中,以及训练不带生成器的GAN。
Imagine That! Abstract-to-Intricate Text-to-Image Synthesis with Scene Graph Hallucination Diffusion
Shengqiong Wu Hao Fei Hanwang Zhang Tat-Seng Chua
研究问题:本文旨在探索从简单抽象文本提示生成复杂视觉内容的文本到图像(T2I)合成任务。
动机:受到人类想象力直觉的启发,我们提出了一种新的场景图幻觉(SGH)机制,用于有效的抽象到复杂的T2I合成。
方法:通过扩展输入提示的初始场景图(SG)来执行场景幻觉,其中结构化的场景图语义表示确保了内在场景想象的高可控性。我们构建了一个基于SG的幻觉扩散系统来实现T2I合成。
效果:在基准COCO数据集上,我们的系统显著优于现有的最佳T2I模型,特别是在抽象到复杂的T2I生成方面。
SEGA: Instructing Text-to-Image Models using Semantic Guidance
Manuel Brack Felix Friedrich Dominik Hintersdorf Lukas Struppek Patrick Schramowski Kristian Kersting
研究问题:如何让文本到图像的扩散模型更好地符合用户的意图,并允许用户进行细微和广泛的编辑、组合和风格变化。
动机:目前的文本到图像扩散模型虽然能够生成高保真的图像,但很难一次生成就符合用户意图,而且对输入提示的小改动也会导致图像差异很大,导致用户在语义上无法控制。
方法:提出了一种语义指导(SEGA)的方法,通过与扩散过程进行交互来灵活地沿着语义方向引导它。这种方法可以应用于任何使用无分类器指导的生成架构。
效果:在潜变量和基于像素的扩散模型(如Stable Diffusion、Paella和DeepFloyd-IF)上进行了实验,证明了SEGA在不同任务上的有效性,展示了其灵活性和通用性。
Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models
Simian Luo Chuanhao Yan Chenxu Hu Hang Zhao
研究问题:如何提高从无声视频到音频的转换模型(V2A)在时间同步和视听相关性方面的生成质量。
动机:现有的V2A方法在时间同步和视听相关性方面的表现有限,影响了生成音频的质量。
方法:提出了一种名为Diff-Foley的同步V2A合成方法,该方法使用潜在扩散模型(LDM)来生成高质量的音频,同时改善了时间同步和视听相关性。通过对比性视听预训练(CAVP)学习更具时序和语义对齐的特征,然后在频谱图潜在空间上用CAVP对齐的视觉特征训练LDM。CAVP对齐的特征使LDM能够通过跨注意力模块捕捉更微妙的视听关联。通过“双重指导”进一步提高样本质量。
效果:Diff-Foley在当前大型V2A数据集上实现了最先进的V2A性能。此外,通过定制的下游微调,展示了Diff-Foley的实际适用性和适应性。
StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
Yinghao Aaron Li Cong Han Vinay S Raghavan Gavin Mischler Nima Mesgarani
研究问题:如何利用风格扩散和大型语音语言模型实现人类级别的文本转语音(TTS)合成。
动机:目前的TTS模型需要参考语音才能生成合适的风格,效率较低。
方法:通过将风格建模为潜变量并通过扩散模型进行扩散,无需参考语音即可生成最合适的风格,同时利用大型预训练的语音语言模型进行端到端训练,提高语音的自然度。
效果:在单说话人和多说话人数据集上均超过了人类录制的水平,并在零射弹说话人适应任务上优于先前的公开模型。
Subject-driven Text-to-Image Generation via Apprenticeship Learning
Wenhu Chen Hexiang Hu YANDONG LI Nataniel Ruiz Xuhui Jia Ming-Wei Chang William W. Cohen
研究问题:如何降低生成特定主题图像的模型训练成本。
动机:目前的文本到图像生成模型需要为每个主题单独进行精细调整,这在计算上是昂贵的。
方法:提出SuTI,一种以主题驱动的文本到图像生成器,用上下文学习取代了针对特定主题的优化。通过挖掘互联网上的大量图像集群,训练大量的专家模型,然后让一个通用的学习模型模仿这些专家的行为。
效果:SuTI能快速生成高质量的、特定主题的图像,其性能显著优于现有的优化基线方法,并在人类评估中表现出色。
Directional diffusion models for graph representation learning
Run Yang Yuling Yang Fan Zhou Qiang Sun
研究问题:扩散模型在图像合成、超分辨率和3D分子生成等领域取得了显著的成功,但在图学习中的应用却鲜有关注。
动机:扩散模型在处理图中的各向异性结构时存在限制,原前向扩散过程不断添加各向同性高斯噪声可能会过度稀释各向异性信号,导致快速的信号-噪声转换,这对训练去噪神经网络和获取语义有意义的表示构成了挑战。
方法:提出一种新的类别模型——定向扩散模型,这些模型在前向扩散过程中采用数据依赖的各向异性和定向噪声。
效果:通过在12个公开数据集上进行大量实验,特别是在两个不同的图表示学习任务上,实验结果明确证实了我们的模型优于最先进的基线,突显了它们在捕获有意义的图表示方面的有效性。
InsActor: Instruction-driven Physics-based Characters
Jiawei Ren Mingyuan Zhang Cunjun Yu Xiao Ma Liang Pan Ziwei Liu
研究问题:如何生成反映高级人类指令的物理模拟动画,以实现基于物理的角色动画的直观控制。
动机:由于物理环境和人类语言的丰富性,生成反映高级人类指令的物理模拟动画仍然是一个困难的问题。
方法:提出了InsActor,一个利用扩散式人体运动模型的最新进展来生成指令驱动的物理角色动画的原则性生成框架。
效果:实验结果表明,InsActor在各种任务上取得了最先进的成果,包括指令驱动的运动生成和指令驱动的航点导航。特别是,InsActor使用高级人类指令生成物理模拟动画的能力使其成为一个有价值的工具,特别是在执行具有丰富指令集的长程任务时。
PaintSeg: Painting Pixels for Training-free Segmentation
Xiang Li Chung-Ching Lin Yinpeng Chen Zicheng Liu Jinglu Wang Rita Singh Bhiksha Raj
研究问题:如何实现无需训练的物体分割方法。
动机:现有的需要训练的物体分割方法需要大量的标注数据,而未标记的数据无法得到有效利用。
方法:提出一种名为AMCP的对抗性蒙版对比绘画过程,通过使用现成的生成模型在被蒙版的区域进行绘画,创建原始图像和绘画图像之间的对比。在绘画过程中交替进行填充背景和恢复前景对象缺失部分的两种操作。
效果:实验结果表明,该方法在粗粒度掩码提示、框提示和点提示分割任务上优于现有方法,为无监督分割提供了一种无需训练的解决方案。
Unsupervised Semantic Correspondence Using Stable Diffusion
Eric Hedlin Gopal Sharma Shweta Mahajan Hossam Isack Abhishek Kar Andrea Tagliasacchi Kwang Moo Yi
研究问题:本文旨在探索无需训练,如何利用扩散模型中的语义知识找到多张图片中具有相同语义含义的位置。
动机:目前的文本到图像扩散模型能够生成与真实图像难以区分的图像,但需要理解它们被要求生成的对象的语义。
方法:在给定一张图像的情况下,优化这些模型的提示嵌入以最大程度地关注感兴趣的区域。优化后的嵌入捕获有关位置的语义信息,然后可以转移到另一张图像上。
效果:实验结果表明,该方法在PF-Willow数据集上的表现与强监督的最新技术相当,并在PF-Willow、CUB-200和SPair-71k数据集上显著优于任何现有的弱监督或无监督方法(相对提升了20.9%)。
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator
Hanzhuo Huang Yufan Feng Cheng Shi Lan Xu Jingyi Yu Sibei Yang
研究问题:本文旨在解决文本到视频生成中的数据效率和成本效益问题,以及如何生成具有语义连贯性的视频。
动机:现有的文本到视频生成方法往往需要大量的数据和训练,而且生成的视频可能缺乏语义连贯性。
方法:本文提出了一种新的自由绽放(Free-Bloom)流程,利用大型语言模型作为导演生成语义连贯的提示序列,预训练的潜在扩散模型作为动画师生成高保真帧。同时,为了确保时间、同一性和语义连贯性,本文还提出了一系列注释修改,包括联合噪声采样、步长感知注意力转移和双路径插值。
效果:自由绽放能够在没有任何视频数据和训练需求的情况下生成生动、高质量的视频,其生成的复杂场景具有语义有意义的帧序列,令人惊叹。此外,自由绽放与基于潜在扩散模型的扩展自然兼容。
Unlocking Feature Visualization for Deep Network with MAgnitude Constrained Optimization
Thomas FEL Thibaut Boissin Victor Boutin Agustin Martin Picard Paul Novello Julien Colin Drew Linsley Tom ROUSSEAU Remi Cadene Lore Goetschalckx Laurent Gardes Thomas Serre
研究问题:特征可视化在深度神经网络中的广泛应用受到限制,需要解决扩展性和图像生成的问题。
动机:Olah等人2017年的工作使特征可视化方法受到关注,但该方法在深度神经网络中的应用受限,且依赖于技巧来生成可解释的图像。
方法:本文提出了MACO方法,通过优化图像的相位频谱并保持其幅度恒定,确保生成的解释位于自然图像的空间中,从而解决了上述问题。
效果:实验结果表明,该方法在定性和定量上都取得了显著改进,为最先进的神经网络提供了高效且可解释的特征可视化。同时,该方法还具有空间重要性的属性,可以通过量化评估特征可视化。
DiffUTE: Universal Text Editing Diffusion Model
Haoxing Chen Zhuoer Xu Zhangxuan Gu jun lan 行 郑 Yaohui Li Changhua Meng Huijia Zhu Weiqiang Wang
研究问题:现有的扩散模型在生成文本和文本风格时存在错误,如何解决这个问题?
动机:提出一种通用的自监督文本编辑扩散模型(DiffUTE),旨在在保持图像现实外观的同时替换或修改源图像中的单词。
方法:基于扩散模型构建模型,并修改网络结构以利用字形和位置信息绘制多语言字符。设计一个自监督学习框架,利用大量网络数据提高模型的表示能力。
效果:实验结果表明,该方法在野外图像上实现了高度逼真的可控编辑,性能令人印象深刻。
A Hierarchical Training Paradigm for Antibody Structure-sequence Co-design
Fang Wu Stan Z. Li
研究问题:本文旨在提出一种抗体序列-结构联合设计的分层训练模式(HTP)。
动机:为了从几何结构和大量的抗体和非抗体序列数据库中挖掘进化信息,以确定配体结合位点和强度。
方法:通过精心设计的任务,将几何图神经网络与大规模蛋白质语言模型无缝有效地集成,形成包含四个级别的训练阶段的HTP。
效果:实验证明,HTP在联合设计问题和固定骨架设计上设置了新的最先进的性能,为深度生成架构的潜力释放提供了希望的道路。
AND: Adversarial Neural Degradation for Learning Blind Image Super-Resolution
Fangzhou Luo Xiaolin Wu Yanhui Guo
研究问题:训练中的假设退化模型与推理阶段的真正退化源不匹配时,学习用于图像超分辨率的深度神经网络容易失败。
动机:尝试模拟所有退化变体既笨重又不实用,因此提出一种新的对抗性神经退化(AND)模型,无需任何显式监督即可生成广泛的高度非线性复杂退化效应。
方法:在最小最大准则下,将AND模型与深度恢复神经网络一起训练。
效果:AND模型具有超越现有技术的独特优势,能更好地泛化到未见过退化变体,从而在实际图像上显著提高恢复性能。
Semi-Implicit Denoising Diffusion Models (SIDDMs)
yanwu xu Mingming Gong Shaoan Xie Wei Wei Matthias Grundmann kayhan Batmanghelich Tingbo Hou
研究问题:尽管生成模型的普及,但在不影响样本多样性和质量的情况下实现快速推理采样仍然具有挑战性。
动机:现有的模型如去噪扩散概率模型(DDPM)可以提供高质量、多样化的样本,但受迭代步骤数量多的影响,速度较慢。去噪扩散生成对抗网络(DDGAN)试图通过整合GAN模型来解决这个问题,但在大型数据集上应用时遇到了可扩展性限制。
方法:我们提出了一种新的方法,通过匹配隐式和显式因素来解决上述问题。具体来说,我们的方法涉及使用隐式模型来匹配有噪声数据的边际分布和前向扩散的显式条件分布。这种结合使我们能够有效地匹配联合去噪分布。与DDPM类似,但我们与DDGAN不同,我们没有强制规定反向步骤的参数分布,这使我们能够在推理过程中进行大步长。与DDPM类似,但与DDGAN不同,我们利用了扩散过程的确切形式。
效果:我们的实验表明,我们提出的方法在生成性能上与基于扩散的模型相当,并且在采样步数较少的模型中获得了显著更好的结果。
CRoSS: Diffusion Model Makes Controllable, Robust and Secure Image Steganography
Jiwen Yu Xuanyu Zhang Youmin Xu Jian Zhang
研究问题:当前图像隐写技术主要关注基于覆盖的方法,这种方法存在泄露秘密图像的风险,并且研究问题:当前图像隐写技术主要关注基于覆盖的方法,这种方法存在泄露秘密图像的风险,并且对退化的容器图像的鲁棒性较差。
动机:受最近扩散模型发展启发,我们发现扩散模型的两个特性——无需训练即可实现两图像之间的转换,以及对噪声数据的鲁棒性——可用于提高图像隐写任务的安全性和自然鲁棒性。
方法:我们选择了稳定扩散作为扩散模型,这是一种条件扩散模型,并充分利用了开源社区的最新工具,如LoRAs和ControlNets,以提高容器图像的可控性和多样性。总的来说,我们提出了一种新的图像隐写框架,名为可控、鲁棒和安全的图像隐写(CRoSS),与基于覆盖的图像隐写方法相比,它在可控性、鲁棒性和安全性方面具有显著优势。这些优势是在无需额外训练的情况下获得的。
效果:在实验部分,我们进行了详细的实验,以证明我们提出的CRoSS框架在可控性、鲁棒性和安全性方面的优势。据我们所知,这是首次将扩散模型引入图像隐写领域的工作。
Customizable Image Synthesis with Multiple Subjects
Zhiheng Liu Yifei Zhang Yujun Shen Kecheng Zheng Kai Zhu Ruili Feng Yu Liu Deli Zhao Jingren Zhou Yang Cao
研究问题:如何有效地表示特定主题,并适当地组合不同的主题,以实现可控的多主题图像合成。
动机:尽管现有的算法在单个主题定制方面取得了成功,但随着主题数量的增加,其训练成本高、成功率低。
方法:通过学习基础嵌入上的残差,将原始主题稳定地转移到给定各种文本条件的自定义主题。然后提出使用布局作为空间指导来安排主题的位置。
效果:实验结果表明,该方法在各种设置下都能显著优于最先进的替代方案,实现了多主题定制的图像合成。
Boundary Guided Learning-Free Semantic Control with Diffusion Models
Ye Zhu Yu Wu Zhiwei Deng Olga Russakovsky Yan Yan
研究问题:如何有效地利用预训练的生成去噪扩散模型(DDMs)进行下游任务,如图像语义编辑,而无需学习额外的网络。
动机:现有的方法通常需要微调DDMs或学习辅助编辑网络,本文提出了一种无额外网络需求的BoundaryDiffusion方法。
方法:通过理论和实证分析高维潜在空间在马尔科夫链中的概率和几何行为,探索中间高维潜在空间的全面理解。然后提出一种自动搜索方法来进一步探索预训练DDMs的去噪轨迹的关键步骤。
效果:在多个DPMs架构和数据集上进行了广泛的实验,取得了优异的性能,证明了该方法在各种任务场景(图像语义编辑、基于文本的编辑、无条件语义控制)中的有效性。
StyleGAN knows Normal, Depth, Albedo, and More
Anand Bhattad Daniel McKee Derek Hoiem David Forsyth
研究问题:如何利用StyleGAN生成内蕴图像。
动机:内蕴图像是具有深度、法线、反照率或阴影等场景属性的类似图像的映射,而现有的方法在处理这些任务时存在不足。
方法:通过将固定的偏移量${bf d_c}$加到StyleGAN的潜变量${\bf w}$上,可以容易地诱导StyleGAN生成内蕴图像。
效果:实验结果表明,使用StyleGAN生成的内蕴图像在定性和定量上都与使用最新的图像回归技术获得的内蕴图像相当,并且对重光照效应具有鲁棒性。
TextDiffuser: Diffusion Models as Text Painters
Jingye Chen Yupan Huang Tengchao Lv Lei Cui Qifeng Chen Furu Wei
研究问题:扩散模型在生成准确连贯的文本方面存在困难。
动机:为了解决这个问题,我们提出了TextDiffuser,专注于生成与背景视觉上吸引人的文本一致的图像。
方法:TextDiffuser包括两个阶段:首先,一个Transformer模型从文本提示中提取关键词并生成布局;然后,扩散模型根据文本提示和生成的布局生成图像。
效果:通过实验和用户研究,我们证明了TextDiffuser能够灵活、可控地使用文本提示或与文本模板图像一起创建高质量的文本图像,并进行文本修复以重构不完整的图像。我们将公开代码、模型和数据集。
PromptRestorer: A Prompting Image Restoration Method with Degradation Perception
Cong Wang Jinshan Pan Wei Wang Jiangxin Dong Mengzhu Wang Yakun Ju Junyang Chen
研究问题:如何利用原始退化特征有效地引导深度恢复模型,以提供准确的退化先验来促进更好的恢复。
动机:在网络学习过程中,不考虑退化的恢复模型会逐渐忘记退化,从而严重阻碍模型容量。
方法:提出一种提示图像恢复器(PromptRestorer),包含两个分支:恢复分支和提示分支。前者用于恢复图像,后者感知退化先验,用可靠的感知内容提示恢复分支指导恢复过程以实现更好的恢复。
效果:通过实验证明,我们的PromptRestorer在图像去雨、去模糊、去雾霾和去雪等4个图像恢复任务上取得了最先进的结果。
Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry
Yong-Hyun Park Mingi Kwon Jaewoong Choi Junghyo Jo Youngjung Uh
研究问题:尽管扩散模型(DMs)取得了成功,但我们对其潜在空间的理解仍然不足。
动机:为了理解潜在空间,我们从几何的角度对其进行了分析。
方法:我们通过利用与编码特征图相关的拉回度量来推导出潜在空间中的局部潜在基。
效果:我们发现的局部潜在基使得我们能够通过在特定时间步长沿着基向量移动潜在空间的$\mathbf{x}_t$来进行图像编辑。此外,我们还分析了DMs的几何结构如何随扩散时间步长而演变以及在不同文本条件下的差异。这证实了已知的从粗糙到精细生成的现象,并揭示了一些新的发现,如不同时间步长的$\mathbf{x}_t$之间的差异、数据集复杂性的影响以及文本提示的时间变化影响。据我们所知,这是第一篇通过$mathbf{x}$-空间遍历进行图像编辑的文章,无需任何额外训练,仅在特定时间步长$t$编辑一次,并对DMs的潜在结构进行了全面分析。
PGDiff: Guiding Diffusion Models for Versatile Face Restoration via Partial Guidance
Peiqing Yang Shangchen Zhou Qingyi Tao Chen Change Loy
研究问题:如何利用预训练的扩散模型进行图像恢复。
动机:传统的任务特定训练方法在面对复杂的退化过程时往往无法精确建模,而现有的通过显式退化模型限制解空间的方法也常常力不从心。
方法:本文提出了一种新的视角“部分引导”,该方法比现有工作更适应现实世界的退化。我们没有具体定义退化过程,而是对高质量图像的结构、颜色统计等期望属性进行建模,并在反向扩散过程中应用这种引导。这些属性是现成的,并且对退化过程没有任何假设。当与扩散先验结合时,这种部分引导可以在各种恢复任务中产生吸引人的结果。此外,我们的方法是可扩展的,可以通过整合来自各自任务的引导来处理复合任务。
效果:实验结果表明,我们的方法不仅优于现有的基于扩散先验的方法,而且与任务特定的模型相比也具有竞争力。
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners
Yonglong Tian Lijie Fan Phillip Isola Huiwen Chang Dilip Krishnan
研究问题:探索使用由文本到图像模型生成的合成图像学习视觉表示的潜力。
动机:鉴于文本到图像模型在生成高质量图像方面的出色表现,这是一个很自然的问题。
方法:我们考虑了Stable Diffusion,这是领先的开源文本到图像模型之一。我们展示了(1)当生成模型配置适当时,在合成图像上训练自监督方法可以匹配或超越真实图像;
(2)通过将同一文本提示生成的多个图像视为彼此的正例,我们开发了一种多正对比学习方法,称为StableRep。
Optimal Transport-Guided Conditional Score-Based Diffusion Model
Xiang Gu Liwei Yang Jian Sun Zongben Xu
研究问题:现有的条件生成模型需要配对数据作为条件,但在实际应用中可能无法提供足够的配对数据。
动机:为了解决部分配对或无配对数据集的应用问题,本文提出了一种新的基于最优传输的条件分数扩散模型(OTCS)。
方法:通过$L_2$-正则化的无监督或半监督最优传输,为未配对或部分配对的数据集建立耦合关系。然后,基于这种耦合关系,开发了针对未配对或部分配对设置的条件分数模型的训练目标。
效果:在未配对的超分辨率和半配对的图像到图像翻译等任务上进行的大量实验表明,提出的OTCS模型是有效的。从最优传输的角度看,OTCS提供了一种在大规模数据集上实现数据分布间传输的方法,这在最优传输中是一个挑战。理论上,我们证明了OTCS实现了最优传输中的数据运输,并给出了理论界限。
Dynamic Prompt Learning: Addressing Cross-Attention Leakage for Text-Based Image Editing
Kai Wang Fei Yang Shiqi Yang Muhammad Atif Butt Joost van de Weijer
研究问题:当前图像编辑技术在修改目标区域时,易对非目标区域(如背景或与目标对象有语义或视觉关系的干扰物)产生意外的修改。
动机:为了解决这一问题,我们提出了动态提示学习(DPL)方法,通过强制注意力映射关注文本提示中的正确的名词词组,实现对特定对象的精细图像编辑,同时防止对其他图像区域的不必要更改。
方法:基于公开的稳定扩散模型,我们通过更新文本输入中名词的动态标记,使用提出的泄漏修复损失来实现这一目标。
效果:在广泛的图像上进行评估后,我们的DPL方法在定量(CLIP分数、结构-距离)和定性(用户评估)上都取得了优异的结果,特别是在复杂的多对象场景中,改进了单词交换、提示精炼和注意力重加权等图像编辑结果。
Predicting a Protein's Stability under a Million Mutations
Jeffrey Ouyang-Zhang Daniel Jesus Diaz Adam Klivans Philipp Kraehenbuehl
研究问题:如何有效地预测蛋白质稳定性的改进突变?
动机:识别能提高热力学稳定性的稀缺突变是蛋白质工程的基础步骤,但现有方法计算成本高且效率低。
方法:开发了一种名为"Mutate Everything"的简单并行解码算法,该算法能在一次前向传递中预测所有单点和双点突变的效果,甚至能以最小的计算开销预测更高阶的突变。
效果:在Mega-Scale cDNA proteolysis数据集上训练后,"Mutate Everything"在S669、ProTherm和ProteinGym数据集上的单点和更高阶突变预测性能达到了最先进的水平。
topic-10
learning data training model performance methods distribution datasets
Students Parrot Their Teachers: Membership Inference on Model Distillation
Matthew Jagielski Milad Nasr Katherine Lee Christopher A. Choquette-Choo Nicholas Carlini Florian Tramèr
研究问题:本文旨在通过设计成员推理攻击,系统地研究知识蒸馏对教师和学生训练集提供的隐私保护。
动机:现有的经验性隐私防御依赖于“学生”模型可以间接通过“教师”模型与训练数据交互来保护训练数据的隐私的直觉。
方法:设计成员推理攻击,对多个领域的知识蒸馏进行系统性研究。
效果:实验结果表明,仅凭蒸馏本身在许多领域只能提供有限的隐私保护。当学生和教师的数据集相似或攻击者可以污染教师的数据集时,我们的攻击最为成功。
Rethinking Bias Mitigation: Fairer Architectures Make for Fairer Face Recognition
Samuel Dooley Rhea Sanjay Sukthanker John P Dickerson Colin White Frank Hutter Micah Goldblum
研究问题:人脸识别系统在安全关键应用中广泛部署,但其在性别、种族等社会经济维度上存在偏见。
动机:传统的观念认为模型的偏见源于训练数据的偏见,但作者发现偏见实际上是神经网络架构本身所固有的。
方法:通过进行神经架构搜索和超参数搜索,输出一套在准确性和公平性上都优于所有其他高性能架构和现有偏差缓解方法的模型。
效果:这些模型在CelebA和VGGFace2这两个最常用的人脸识别数据集上表现出色,并可以推广到其他数据集和敏感属性。
Can semi-supervised learning use all the data effectively? A lower bound perspective
Alexandru Tifrea Gizem Yüce Amartya Sanyal Fanny Yang
研究问题:现有的理论和实证工作已经证明,半监督学习算法可以利用未标记的数据来提高监督学习算法的标签样本复杂度。然而,现有的理论研究主要关注的是未标记的数据足以使用无监督学习单独学习良好决策边界的情况。这引发了一个问题:半监督学习算法能否同时改善无监督学习和监督学习?
动机:为了解决这个问题,我们为2-高斯混合模型推导了一个紧密的下界,该下界明确依赖于标记和未标记数据集的大小以及混合分布的信号噪声比。令人惊讶的是,我们的结果暗示,对于这些分布,没有半监督学习算法能改进无监督学习和监督学习算法的最小最大最优统计误差率。
方法:通过推导一个紧密的下界,我们分析了2-高斯混合模型的半监督学习算法的性能。
效果:虽然理论上无法证明半监督学习算法的性能增益,但在我们的现实世界实验中,半监督学习算法往往能超过无监督学习和监督学习算法的性能。总的来说,我们的工作表明,尽管有可能证明半监督学习算法的性能增益,但这需要仔细跟踪理论分析中的常数。
Online Label Shift: Optimal Dynamic Regret meets Practical Algorithms
Dheeraj Baby Saurabh Garg Tzu-Ching Yen Sivaraman Balakrishnan Zachary Chase Lipton Yu-Xiang Wang
研究问题:本文关注有监督和无监督的在线标签漂移问题,其中类别边际$Q(y)$变化,但类别条件$Q(x|y)$保持不变。
动机:在无监督设置中,目标是将一个学习器适应到给定未标记的在线数据时不断变化的标签分布。在有监督设置中,我们必须同时学习分类器并适应仅使用标记的在线数据动态演化的类别边际。
方法:我们开发了新的算法,将适应问题简化为在线回归,并在没有任何先验知识的情况下保证最优动态遗憾。我们的解决方案基于启动跟踪漂移比例的*在线回归 oracles* 的估计。
效果:通过大量模拟和现实世界的在线标签漂移场景进行实验,证明了我们提出的方法具有优越的性能,通常在准确性上提高了1-3%,并且在样本和计算效率方面表现良好。代码已在 https://github.com/Anon-djiwh/OnlineLabelShift 公开。
Combating Representation Learning Disparity with Geometric Harmonization
Zhihan Zhou Jiangchao Yao Feng Hong Ya Zhang Bo Han Yanfeng Wang
研究问题:现有的自监督学习方法在面对真实世界应用中的长尾分布时,难以捕捉到可转移和稳健的表示。
动机:现有的自监督学习方法追求样本级别的一致性,导致表示学习的差异性,即头部类别(样本数量大的类别)主导特征空间,而尾部类别(样本数量小的类别)被动地崩溃。
方法:提出一种新的几何协调(GH)方法,鼓励表示学习中类别级别的一致性,对少数类更友好,且在长尾分布下几乎不会伤害多数类。具体来说,GH测量自监督学习之上的嵌入空间的总体统计信息,然后推断出精细的实例级校准,以约束头部类别的空间扩展并避免尾部类别的被动崩溃。
效果:广泛的实验结果表明,该方法对分布偏斜具有高容忍度,可以有效地解决现有自监督学习方法在长尾分布问题上的挑战。
RePo: Resilient Model-Based Reinforcement Learning by Regularizing Posterior Predictability
Chuning Zhu Max Simchowitz Siri Gadipudi Abhishek Gupta
研究问题:现有的视觉模型基础强化学习方法在处理图像观察时,由于没有消除冗余信息,容易受到无关变化的影响。
动机:为了提高视觉模型基础强化学习方法对无关变化的鲁棒性,使其能在动态环境中运行。
方法:提出了一种新的训练目标,鼓励表示具有最大的预测动态和奖励的能力,同时限制从观察中到潜在表示的信息流。此外,还提出了一种奖励自由的对齐程序,使测试时间的编码器可以进行适应。
效果:实验证明,这种方法显著增强了视觉模型基础强化学习方法对视觉干扰的鲁棒性,并能在动态环境中运行。同时,通过奖励自由的对齐程序,可以在不需要重新学习动态和策略的情况下快速适应大不同的环境。
On the Connection between Pre-training Data Diversity and Fine-tuning Robustness
Vivek Ramanujan Thao Nguyen Sewoong Oh Ali Farhadi Ludwig Schmidt
研究问题:预训练分布的性质如何影响下游模型的鲁棒性?
动机:探索预训练策略对下游模型泛化性能的影响。
方法:通过改变预训练分布的标签空间、标签语义、图像多样性、数据域和数据量,来研究这些性质对下游模型鲁棒性的影响。
效果:发现数据量是影响下游有效鲁棒性的主要因素,而其他因素的影响有限。例如,减少ImageNet预训练类别的数量4倍,同时增加每个类别的图像数量4倍(即保持总数据量不变),不会影响下游模型的鲁棒性。
No Change, No Gain: Empowering Graph Neural Networks with Expected Model Change Maximization for Active Learning
Zixing Song Yifei Zhang Irwin King
研究问题:如何提高图神经网络(GNNs)在无标签数据上的预测性能。
动机:图神经网络的成功依赖于充足的标记数据,但在许多情况下,获取标记数据是困难的。
方法:提出了一种新的主动学习(AL)方法,将期望模型变化最大化(EMCM)原则扩展到GNNs,以改善未标记数据的预测性能。通过在半监督设置下对GNN生成的节点嵌入进行贝叶斯解释,我们有效地计算了闭型EMCM采集函数作为AL的选择标准,而无需重新训练。
效果:实验表明,与现有方法相比,该方法在准确性和效率方面都表现出了有效性。
Zero-shot causal learning
Hamed Nilforoshan Michael Moor Yusuf H Roohani Yining Chen Anja Šurina Michihiro Yasunaga Sara Oblak Jure Leskovec
研究问题:如何预测不同干预措施对特定个体的因果影响?
动机:在个性化医疗、公共政策和在线营销等领域,预测特定干预措施对个体的影响具有重要意义。
方法:提出CaML(Causal Meta-Learning)框架,通过训练一个元模型来预测新干预措施的个性化效果。该框架将每个干预措施的效果预测任务构造为一个任务,并利用干预信息和个人特征进行预测。
效果:实验结果表明,CaML在大规模医疗索赔和细胞系扰动的真实世界数据集上表现出色,甚至优于直接在测试干预数据上训练的强大基线。
Training shallow ReLU networks on noisy data using hinge loss: when do we overfit and is it benign?
Erin George Michael Murray William Joseph Swartworth Deanna Needell
研究问题:本研究关注在有噪声的二分类数据上,使用梯度下降和铰链损失训练的两层ReLU网络中的良性过拟合现象。
动机:我们特别考虑了线性可分的数据,其中一小部分标签被错误地标记或翻转。我们希望理解清楚数据边界条件下的三种不同的训练结果:良性过拟合、过拟合和非过拟合。
方法:我们通过组合方法来证明这些结果,该方法涉及在训练的这两个阶段中,对干净与错误更新的数量进行限制。
效果:实验结果表明,良性过拟合情况下,测试数据被正确分类的概率很高;而过拟合情况下,测试数据被错误分类的概率被一个常数下界;非过拟合情况下,只有干净的点能达到零损失,并且测试数据被正确分类的概率也很高。此外,我们的分析还揭示了神经元在整个训练过程中的动态变化,以及训练的两个不同阶段。
Maximization of Average Precision for Deep Learning with Adversarial Ranking Robustness
Gang Li Wei Tong Tianbao Yang
研究问题:优化平均精度(AP)的同时确保对抗性鲁棒性,这是一个尚未充分探索的领域。
动机:尽管有许多关于对抗性训练的研究,但它们主要关注于准确性的鲁棒性,即在对抗性扰动的例子上的平均准确率是否保持良好。然而,这种类型的对抗性鲁棒性对于许多应用来说是不够的,因为单个例子上的微小扰动可能会显著影响AP,而对预测系统的准确率影响不大。
方法:我们提出了一种新的方法,将AP替代损失与代表对抗性排名鲁棒性的正则化项相结合,以保持清洁数据和受扰动数据的排序一致性。然后,我们设计了一种有效的随机优化算法来优化得到的目标函数。
效果:通过对比当前领先的对抗性训练基线和其他稳健的AP最大化策略,我们的实证研究表明了所提出方法的有效性。特别是在CIFAR10和CIFAR100上,我们的方法在对抗PGD攻击的稳健AP方面比最先进的方法(TRADES)高出4%以上,同时在清洁数据上实现了7%的AP。
Mechanism Design for Collaborative Normal Mean Estimation
Yiding Chen Jerry Zhu Kirthevasan Kandasamy
研究问题:我们研究了合作性正态均值估计,其中m个策略性代理从正态分布$\mathcal{N}(mu, \sigma^2)$中收集独立同分布的样本,并付出一定的代价。他们都想估计均值$\mu$。通过彼此之间的数据共享,代理可以获得更好的估计结果,同时保持数据收集成本较小。
动机:为了促进这种合作,我们希望设计一种机制,鼓励代理收集足够的数据并进行真实共享,以便他们都比单独工作更好。在简单的机制中,例如简单地汇总和共享所有数据,单个代理可能会发现少收集和/或伪造数据是有利的,这可能导致不良的社会结果。
方法:我们设计了一种新颖的机制来克服这些挑战,主要通过两个关键技术:首先,当将其他代理的数据与一个代理共享时,该机制会按照该代理报告的数据与其他代理的差异程度对数据集进行一定程度的破坏;其次,我们为破坏后的数据集设计了最小最大优化估计器。我们的机制是纳什激励兼容和个体理性的,其社会惩罚(所有代理的估计误差和数据收集成本的总和)最多是全球最小值的两倍。当应用于高维(非高斯)分布且方差有限时,该机制保留了这三个属性,但结果略弱。
效果:在两种特殊情况下,我们限制了代理的策略空间,设计了实质上实现全球最小值的机制。
Uncovering the Hidden Dynamics of Video Self-supervised Learning under Distribution Shifts
Pritam Sarkar Ahmad Beirami Ali Etemad
研究问题:本文旨在全面研究六种流行的自我监督方法(v-SimCLR,v-MoCo,v-BYOL,v-SimSiam,v-DINO,v-MAE)在不同形式的自然分布偏移下的行为和动态。
动机:虽然视频自监督学习(VSSL)近年来取得了显著进展,但这些模型在面对不同形式的分布偏移时的具体行为和动态尚未明确。
方法:通过使用公共数据集和一系列评估协议,精心设计了一个包含17个分布内和分布外基准对的测试平台,以在预期的偏移下对不同的方法进行压力测试。
效果:研究发现了一系列有趣的VSSL方法的行为。例如,观察到视频模型在面对上下文偏移时普遍表现不佳,而v-MAE和有监督学习方法表现出更强的鲁棒性。此外,研究还发现v-MAE是一个强大的时间学习者,而对比方法v-SimCLR和v-MoCo在面对视点偏移时表现出强大的性能。在研究开放集识别的概念时,注意到如果在没有微调的情况下使用预训练的VSSL编码器,那么封闭集和开放集识别性能之间存在权衡。
Skill-it! A data-driven skills framework for understanding and training language models
Mayee F Chen Nicholas Roberts Kush Bhatia Jue WANG Ce Zhang Frederic Sala Christopher Re
研究问题:在有限的标记预算下,如何最有效地选择训练数据以优化预训练大型语言模型(LMs)的下游任务性能。
动机:人类在获取相互依赖的技能时有一种刻意的顺序,同样,语言模型在学习一组技能时也遵循一种自然顺序。如果这种顺序存在,就可以用于改进对LMs的理解并实现数据高效的训练。
方法:开发了一个新框架,该框架基于一个简单的假设:语言模型在学习一组技能时也遵循一种自然顺序。我们使用合成和真实数据来证明这些有序的技能集的存在,并证明当我们根据其先决条件技能进行训练时,这些存在的有序技能集可以使更高级的技能通过更少的数据学习。
效果:在LEGO合成数据的持续预训练设置中,Skill-It比随机采样获得了37.5分的更高准确率。在Natural Instructions数据集的微调设置中,Skill-It将目标技能的验证损失降低了13.6%。在RedPajama数据集上应用我们的技能框架进行持续预训练,结果在1B个标记的情况下,LM评估装置的准确性高于在3B个标记的情况下均匀采样各个数据源的基线方法。
Unified Embedding: Battle-Tested Feature Representations for Web-Scale ML Systems
Benjamin Coleman Wang-Cheng Kang Matthew Fahrbach Ruoxi Wang Lichan Hong Ed H. Chi Derek Zhiyuan Cheng
研究问题:如何有效地学习高质量的特征嵌入,以提升网页级机器学习系统的性能。
动机:对于具有数百万到数十亿个标记的词汇表的数百种特征,将每个特征值表示为$d$-维嵌入引入了数千亿个参数,这对性能产生了瓶颈。
方法:提出了一种简单但非常有效的框架——特征多路复用,其中许多不同的分类特征使用一个单一的表示空间。
效果:理论和实证分析表明,多路复用的嵌入可以分解为每个构成特征的组件,使模型能够区分特征。在三个公共基准数据集上,多路复用表示提供了帕累托最优的空间-准确性权衡。此外,还提出了一种高度实用的方法——统一嵌入,它具有简化特征配置、强适应动态数据分布和兼容现代硬件三大优点。与五个网页级搜索、广告和推荐系统中的强大竞争性基线相比,统一嵌入在离线和在线指标上都取得了显著的改进。
Minimum-Risk Recalibration of Classifiers
Zeyu Sun Dogyoon Song Alfred Hero
研究问题:本文旨在解决概率分类器再校准的问题,以提升预测模型的可靠性和准确性。
动机:尽管已经开发了许多再校准算法,但仍然缺乏一个整合校准和锐度(对保持预测能力至关重要)的综合理论。
方法:在均方误差(MSE)分解框架中引入最小风险再校准的概念,为评估和再校准概率分类器提供了一个原则性的方法。
效果:通过这个框架,我们分析了均匀质量分箱(UMB)再校准方法,并建立了数量级为O(B/n + 1/B^2)的有限样本风险上界,其中B是箱子的数量,n是样本大小。我们还提出了一种两阶段方法来应对标签偏移的挑战,该方法使用来自目标领域的有限标记数据调整再校准函数。我们的结果显示,与从零开始再校准相比,转移已校准分类器所需的目标样本数量显著减少。
Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases
Mazda Moayeri Wenxiao Wang Sahil Singla Soheil Feizi
研究问题:如何测量和减轻模型因依赖虚假线索而产生的偏见?
动机:目前的模型在训练过程中容易受到虚假线索的影响,导致对某些样本的预测结果存在偏见。
方法:提出一种简单有效的方法,通过可解释网络的深度神经网络特征来代理虚假度(虚假线索的程度),并据此对图像进行排序。然后根据排序结果,可以识别出少数子群体(即低虚假度的图像),并评估模型的偏见程度。最后,通过对低虚假度图像进行分类头微调,可以在不影响准确性的情况下有效地消除模型的偏见,从而公平地对待各种样本。
效果:在ImageNet数据集上进行了实验,发现了630个虚假的特征依赖关系,并对89个不同模型进行了偏见评估。结果显示,模型因依赖虚假特征而产生的偏见主要受训练数据的影响,而不是训练方式。
Scaling Open-Vocabulary Object Detection
Matthias Minderer Alexey A. Gritsenko Neil Houlsby
研究问题:如何利用预训练的视觉-语言模型进行开放词汇对象检测,并解决可用检测训练数据量有限的问题。
动机:虽然可以通过使用网络图像-文本对作为弱监督来扩展检测训练数据,但尚未在与图像级别预训练相当的规模上进行。
方法:我们采用自我训练的方法扩大检测数据,该方法使用现有的检测器为图像-文本对生成伪框注释。主要挑战是标签空间的选择、伪注释过滤和训练效率。我们提出了OWLv2模型和OWL-ST自我训练方案,以解决这些挑战。
效果:OWLv2在可比的训练规模(约1000万例)上超越了先前最先进的开放词汇检测器的性能。然而,通过OWL-ST,我们可以扩展到超过10亿个例子,进一步大幅提高性能:使用L/14架构,OWL-ST在LVIS罕见类别上的AP从31.2%提高到44.6%(相对提高了43%)。OWL-ST解锁了类似于图像分类和语言建模的开放世界定位的Web级训练。
Imitation Learning from Imperfection: Theoretical Justifications and Algorithms
Ziniu Li Tian Xu Zeyu Qin Yang Yu Zhi-Quan Luo
研究问题:模仿学习算法在面对专家数据有限的情况下,如何通过辅助数据进行改进。
动机:现有的离线模仿学习方法存在局限性,需要一种更有效的方法来处理来自次优策略的不完美数据集。
方法:提出了一种新的基于重要性采样的数据选择技术,用于从专家分布中选择数据。
效果:理论分析和实验证明,该方法可以消除简单应用行为克隆算法到组合的专家和辅助数据的缺陷,并在机器人控制、Atari视频游戏和图像分类等任务上优于现有方法。
Leveraging sparse and shared feature activations for disentangled representation learning
Marco Fumero Florian Wenzel Luca Zancato Alessandro Achille Emanuele Rodolà Stefano Soatto Bernhard Schölkopf Francesco Locatello
研究问题:如何从多样化的有监督任务中提取知识,学习一个通用的解耦表示。
动机:现有的高维数据变异潜在因素恢复方法主要关注简单的合成设置,缺乏对现实世界数据表示学习的积极影响。
方法:我们提出了一种利用从多样化的有监督任务中提取的知识来学习通用解耦表示的方法。假设每个有监督任务仅依赖于未知变异因素的一个子集,我们对有监督多任务模型的特征空间进行解耦,使特征在不同任务中稀疏激活,并适当共享信息。
效果:我们在六个现实世界分布偏移基准测试和不同的数据模态(图像、文本)上验证了我们的方法,展示了解耦表示如何转移到真实场景。
The Pursuit of Human Labeling: A New Perspective on Unsupervised Learning
Artyom Gadetsky Maria Brbic
研究问题:本文旨在提出一个模型无关的框架HUME,用于推断给定数据集的人类标签,而无需任何外部监督。
动机:许多人类标签定义的类别在表示数据集的任何表示空间中都是线性可分的,这一关键洞察引导了我们的方法。
方法:HUME利用这一洞察来指导对数据集所有可能标签的搜索,以发现潜在的人类标签。我们仅在预训练的表示上训练线性分类器,这些表示在训练期间保持不变,使我们的框架与任何大型预训练和自监督模型兼容。
效果:实验结果表明,HUME在STL-10数据集上大大优于基于自我监督表示的监督线性分类器,并在CIFAR-10数据集上实现了相当的性能。与现有的无监督基线相比,HUME在四个基准图像分类数据集上实现了最先进的性能,包括大规模的ImageNet-1000数据集。
Rewiring Neurons in Non-Stationary Environments
Zhicheng Sun Yadong MU
研究问题:如何利用大脑的神经可塑性,在持续强化学习中进行网络重连,以适应非平稳环境。
动机:现有的网络重连方法主要依赖于剪枝或动态路由,可能会限制网络容量和可塑性。本文提出了一种新的重连方案,通过置换隐藏的神经元来实现。
方法:通过参数化使神经元置换成为端到端可学习的,可以重新排列所有可用的突触,探索更大的权重空间,从而促进适应性。同时,引入两种主要设计来指导持续强化学习中的重连过程:一是提出多模式重连策略,当遇到新环境时,多样化策略并鼓励探索;二是为确保历史任务的稳定性,设计网络缓存每次学习的连接方式,同时微妙地更新其权重,以便恢复适合任务的任何先前状态。此外,通过联合优化缓存的连接和权重,制定了一种对齐机制,以实现更好的可塑性-稳定性权衡。
效果:在18个持续强化学习场景中进行了全面评估,从移动到操作,展示了其在性能-效率权衡方面优于最先进的竞争对手。代码可在https://github.com/feifeiobama/RewireNeuron获取。
Diffusion Models and Semi-Supervised Learners Benefit Mutually with Few Labels
Zebin You Yong Zhong Fan Bao Jiacheng Sun Chongxuan Li Jun Zhu
研究问题:如何进一步推进半监督生成和分类任务?
动机:现有的半监督学习方法在少量标签的情况下性能有限,需要更有效的训练策略。
方法:提出一种名为“双伪训练”(DPT)的策略,包括三个阶段:使用部分标记数据训练分类器预测伪标签;使用这些伪标签训练条件生成模型生成伪图像;以及用真实和伪图像混合重新训练分类器。
效果:实验证明,DPT在各种设置下都能实现最先进的半监督生成和分类性能。特别是在每个类别只有一两个标签的情况下,DPT在ImageNet $256\times256$上达到了3.08或2.52的Fréchet Inception Distance (FID)分数。此外,DPT在ImageNet分类任务上大幅超过了竞争性的半监督基线,分别在每个类别只有一、两、五个标签的情况下实现了59.0(+2.8)、69.5(+3.0)和74.4(+2.0)的Top-1准确率。
Rank-N-Contrast: Learning Continuous Representations for Regression
Kaiwen Zha Peng Cao Jeany Son Yuzhe Yang Dina Katabi
研究问题:现有的深度学习回归模型学习方式通常端到端,没有明确强调回归感知表示,导致研究问题:现有的深度学习回归模型学习方式通常端到端,没有明确强调回归感知表示,导致学到的表示出现碎片化,无法捕捉样本顺序的连续性,从而在广泛的回归任务中产生次优结果。
动机:为了填补这一空白,我们提出了Rank-N-Contrast(RNC)框架,该框架通过基于目标空间中样本的排名进行对比,为回归学习连续表示。
方法:RNC框架通过对比样本在目标空间中的排名来学习连续表示。
效果:理论和实验证明,RNC能够保证学到的表示顺序与目标顺序一致,不仅性能更好,而且鲁棒性、效率和泛化能力都有显著提高。在五个现实世界的回归数据集上进行的大量实验,包括计算机视觉、人机交互和医疗领域,验证了RNC达到了最先进的性能,突出了其更好的数据效率、对虚假目标和数据损坏的鲁棒性以及分布偏移的泛化能力等吸引人的特性。
Promises and Pitfalls of Threshold-based Auto-labeling
Harit Vishwakarma Heguang Lin Frederic Sala Ramya Korlakai Vinayak
研究问题:如何减少监督机器学习工作流程中对大规模高质量标注数据集的依赖。
动机:阈值基自动标注(TBAL)可以减少对人工标注的依赖,但需要大量的人类标注验证数据来保证机器标注数据的质量。
方法:通过分析TBAL系统并推导出人类标注验证数据所需的样本复杂度界限,以理解何时可以依赖这种自动标注系统获得的数据。
效果:实验结果发现,看似糟糕的模型可以自动准确地对大量未标注数据进行合理划分和标注,同时揭示了TBAL系统的潜力和潜在缺陷。
MGDD: A Meta Generator for Fast Dataset Distillation
Songhua Liu Xinchao Wang
研究问题:现有的数据集蒸馏(DD)技术通常依赖于迭代策略来合成压缩的数据集,但研究问题:现有的数据集蒸馏(DD)技术通常依赖于迭代策略来合成压缩的数据集,但这种方法的时间效率仍然无法满足需求,且在需要不同大小的合成数据集时,必须重复进行迭代训练,这既繁琐又缺乏灵活性。
动机:为了解决现有数据集蒸馏方法的时间效率低下和缺乏灵活性的问题,本文提出了一种生成式的数据集蒸馏方法。
方法:该方法通过一个生成器网络根据数据集蒸馏的初始化条件生成合成样本,同时通过在特征空间中解决最小二乘问题来获取合成标签。我们还提出了一个元学习算法,用于高效地找到满意的生成器。
效果:实验表明,仅用有限的步骤调整后的生成器的性能与最先进的数据集蒸馏方法相当,并且可以实现$22\times$的加速。
Proximity-Informed Calibration for Deep Neural Networks
Miao Xiong Ailin Deng Pang Wei Koh Jiaying Wu Shen Li Jianqing Xu Bryan Hooi
研究问题:现有的校准算法往往忽视了近邻偏差的问题,即模型在低近邻数据(即分布在数据稀疏区域的数据)上比高近邻样本更自信,导致不同近邻样本的误校准不一致。
动机:我们对504个预训练ImageNet模型进行了检查,发现近邻偏差存在于各种模型架构和尺寸中,且Transformer模型比CNN模型更容易受到近邻偏差的影响。
方法:我们提出了ProCal,这是一个即插即用的算法,具有基于近邻调整样本信心的理论保证。我们还引入了基于近邻的期望校准误差(PIECE),以进一步量化校准算法在减轻近邻偏差方面的有效性。
效果:实验表明,ProCal在平衡、长尾和分布偏移设置下,能有效解决近邻偏差并提高校准效果。我们相信关于近邻偏差的发现将指导开发更公平、更准确的模型,为追求可信AI做出贡献。
Should I Stop or Should I Go: Early Stopping with Heterogeneous Populations
Hammaad Adam Fan Yin Mary Hu Neil Tenenholtz Lorin Crawford Lester Mackey Allison Koenecke
研究问题:随机实验由于治疗产生意外的有害效果,往往需要提前停止。现有的方法通常应用于整体数据,并未考虑到处理效应的异质性。
动机:当前的方法在治疗伤害到少数群体参与者时,往往无法及时停止实验。
方法:使用因果机器学习开发CLASH,这是第一个广泛适用的异质性早期停止方法。
效果:通过模拟和真实数据展示了CLASH的性能,表明它可以有效地为临床试验和A/B测试提供早期停止。
Conditional Mutual Information for Disentangled Representations in Reinforcement Learning
Mhairi Dunion Trevor McInroe Kevin Sebastian Luck Josiah P. Hanna Stefano V Albrecht
研究问题:强化学习环境中,由于训练数据量大或特征覆盖范围有限,可能会产生特征之间的误导性关联。这可能导致RL代理将这些误导性的关联编码到其潜在表示中,从而在环境内或在现实世界中部署时无法进行泛化。
动机:现有的解耦技术需要独立的特征才能最小化特征之间的互信息,因此它们不能解耦相关的特征。我们提出了一个辅助任务,通过最小化表示中特征之间的条件互信息,让RL算法学习具有相关特征的高维观测的解耦表示。
方法:我们为RL算法设计了一个辅助任务,该任务通过最小化表示中特征之间的条件互信息来学习具有相关特征的高维观测的解耦表示。
效果:实验表明,我们的方法在相关性偏移下提高了泛化能力,并且在存在相关特征的情况下改善了RL算法的训练性能。
Subspace Identification for Multi-Source Domain Adaptation
Zijian Li Ruichu Cai Guangyi Chen Boyang Sun Zhifeng Hao Kun Zhang
研究问题:本文旨在解决多源领域适应(MSDA)方法在实际应用中需要满足严格假设的问题。
动机:现有的MSDA方法需要满足一些严格的条件,如足够数量的领域、潜在变量的单调转换和标签分布的不变性,这些条件在实际应用中很难满足。
方法:本文提出了一种子空间识别理论,该理论在对领域数量和转换性质的限制较少的情况下,保证了领域不变和特定领域的变量的解耦,从而通过最小化领域转移对不变变量的影响来促进领域适应。基于这个理论,开发了一个利用变分推理的子空间识别保证(SIG)模型。此外,SIG模型还结合了类别感知的条件对齐,以适应标签分布随领域变化的目标转移。
效果:实验结果表明,我们的SIG模型在各种基准数据集上优于现有的MSDA技术,突出了其在实际应用中的有效性。
Alleviating the Semantic Gap for Generalized fMRI-to-Image Reconstruction
Tao Fang Qian Zheng Gang Pan
研究问题:现有的fMRI-to-image重建方法在训练和测试数据间存在语义鸿沟,导致重建结果不稳定且不确定。
动机:解决fMRI-to-image重建中存在的语义鸿沟问题。
方法:利用预训练的CLIP模型将训练数据映射到紧凑的特征表示,扩展稀疏的训练数据语义为密集的,从而缓解已知概念附近的实例(即训练超类内)的语义鸿沟。同时,借鉴fMRI数据中的稳健低层表示,以结构信息作为通用提示来指导图像重建。通过概率密度估计量化语义不确定性,并在扩散过程中自适应地整合扩展语义和结构信息(GESS)。
效果:实验结果表明,提出的GESS模型优于最先进的方法,且提出了一种广义的场景分割策略来评估GESS在缩小语义鸿沟方面的优势。
Episodic Multi-Task Learning with Heterogeneous Neural Processes
Jiayi Shen Xiantong Zhen Cheems Wang Marcel Worring
研究问题:本文旨在解决多任务学习中数据不足的问题,特别是在情境训练设置中。
动机:现有的元学习方法往往未能充分利用单一情境中的异构信息,而多任务学习模型则忽视了早期情境经验的再利用。
方法:我们开发了异构神经过程(HNPs)来解决这一问题,该方法在分层贝叶斯框架下,有效地利用先前经验作为元知识,并捕捉到异构任务之间的相关性,以缓解数据不足的问题。
效果:实验结果表明,HNPs在处理新的异构任务上表现出优于典型基线的性能,消融研究验证了设计的推理模块的有效性。
Generalizing Importance Weighting to A Universal Solver for Distribution Shift Problems
Tongtong Fang Nan Lu Gang Niu Masashi Sugiyama
研究问题:本文旨在解决现有方法在处理训练和测试分布支持变化(Distribution shift,DS研究问题:本文旨在解决现有方法在处理训练和测试分布支持变化(Distribution shift,DS)时的问题,特别是在测试支持更广或部分重叠的情况下。
动机:现有的方法主要针对训练和测试分布完全匹配或训练支持更广的情况,但在测试支持更广或部分重叠的情况下表现不佳。
方法:本文提出了一种通用的重要性加权(Generalized Importance Weighting,GIW)方法,该方法将测试支持分为训练内(in-training, IT)和支持外(out-of-training, OOT)两部分,并分解期望风险为IT部分的加权分类项和OOT部分的标准分类项,以确保GIW的风险一致性。
效果:实验表明,GIW是一种通用的DS问题解决方法,在测试支持更广或部分重叠的情况下,其性能超过了现有的重要性加权方法。
Invariant Learning via Probability of Sufficient and Necessary Causes
Mengyue Yang Yonggang Zhang Zhen Fang Yali Du Furui Liu Jean-Francois Ton Jianhong Wang Jun Wang
研究问题:如何实现模型在未知测试分布下的泛化能力,特别是在处理因果关系时,现有方法主要关注原因的不变性,而忽视了充分必要条件的特性。
动机:为了解决这一问题,我们提出了一种基于充分必要条件概率(PNS)的方法,以更好地捕捉充分和必要原因的信息。
方法:我们采用了经典的概率充分必要条件(PNS)概念,并将其与OOD泛化相关联,提出了PNS风险的概念,并设计了一种算法来学习具有高PNS值的表示。
效果:实验证明,该方法在合成和真实世界的基准测试上都表现出了良好的效果。
Learning List-Level Domain-Invariant Representations for Ranking
Ruicheng Xian Honglei Zhuang Zhen Qin Hamed Zamani Jing Lu Ji Ma Kai Hui Han Zhao Xuanhui Wang Michael Bendersky
研究问题:如何将知识从丰富的源领域转移到资源较少的目标领域,特别是在排名问题上的应用。
动机:尽管现有的方法在分类和回归问题上已经得到了广泛的应用,但在排名问题上的应用却很少,且缺乏理论支持。
方法:提出了列表级别的对齐——在学习域不变表示的更高级别上进行列表级别的对齐。
效果:该方法不仅实现了第一个关于排名问题的域适应泛化边界,从而为提出的方法提供了理论支持,而且在包括段落重排在内的排名任务上的无监督域适应转移性能上也取得了更好的效果。
Semi-Supervised Domain Generalization with Known and Unknown Classes
Lei Zhang Ji-Fu Li Wei Wang
研究问题:如何训练一个能对未见过的目标领域进行泛化的模型,当只有少量标签可用时?
动机:现有的半监督领域泛化方法假设未标记的训练和测试样本都是已知类别,但实际情况可能是已知类别与未知类别在未标记的训练和测试数据中混合。
方法:提出类特定自适应探索和利用(CWAEE)方法,通过使用一对多分类器和类特定自适应阈值来检测已知和未知类别,并通过基于傅里叶变换的增强样本一致性正则化来改进未见过领域的泛化。
效果:在真实世界数据集上进行的实验验证了我们的方法的有效性和优越性。
ID and OOD Performance Are Sometimes Inversely Correlated on Real-world Datasets
Damien Teney LIN Yong Seong Joon Oh Ehsan Abbasnejad
研究问题:本文旨在比较计算机视觉和自然语言处理中模型的内在分布(ID)和外在分布(OOD)性能,并探讨其相关性。
动机:过去的研究显示,模型的ID性能和OOD性能之间通常存在正相关关系,但在某些情况下,这种关系可能会反转。这种现象对于确定ID性能是否可以作为OOD泛化能力的代理至关重要。
方法:通过对多个真实世界数据集的分析,本文揭示了ID和OOD性能之间的反向关联确实存在,并且不仅仅是在人为的最坏情况下出现。同时,本文从理论上解释了这些情况的产生原因,以及为什么过去的研究由于采用了偏颇的模型选择方法而未能发现它们。
效果:本文的观察结果对当前的文献提出了一些与之相反的建议:高OOD性能有时需要牺牲ID性能;仅关注ID性能可能无法达到最优的OOD性能,甚至可能导致OOD性能逐渐下降;在这些情况下,使用ID性能进行模型选择的OOD泛化研究将必然错过表现最佳的模型,从而使这些研究对一系列现象视而不见。
A Deep Instance Generative Framework for MILP Solvers Under Limited Data Availability
Zijie Geng Xijun Li Jie Wang Xiao Li Yongdong Zhang Feng Wu
研究问题:现有的混合整数线性规划(MILP)实例生成技术往往依赖专家设计的公式,或难以捕捉真实世界实例的丰富特征。
动机:由于真实世界实例的有限可用性,这导致次优决策和偏见的评价,因此需要一种合成的MILP实例生成技术。
方法:我们提出了G2MILP,这是第一个用于MILP实例的深度生成框架。具体来说,G2MILP将MILP实例表示为二部图,并应用了掩码变分自编码器来迭代地破坏和替换原始图的部分以生成新的图。
效果:实验表明,我们的方法可以生成在结构和计算难度上都与真实世界数据集相似的新实例,同时无需预先设计专家公式。这些生成的实例可以在数据有限的情况下提升MILP求解器的性能。
A Graph-Theoretic Framework for Understanding Open-World Semi-Supervised Learning
Yiyou Sun Zhenmei Shi Yixuan Li
研究问题:本文旨在填补开放世界半监督学习的理论空白,通过利用已知类别的标记集的先验知识来推断未标记数据中的已知和未知类别。
动机:尽管开放世界半监督学习的重要性,但这个问题缺乏理论基础。
方法:本文通过为开放世界环境量身定制的图论框架形式化了这个问题,其中聚类可以通过图分解进行理论表征。基于我们的图论框架,我们应用了名为Spectral Open-world Representation Learning (SORL)的算法,并证明最小化我们的损失等价于在图上执行谱分解。
效果:实验结果表明,SORL可以在常见的基准数据集上匹配或超越几个强大的基线,这对于实际使用具有吸引力,同时享受理论保证。
Adversarial Counterfactual Environment Model Learning
Xiong-Hui Chen Yang Yu Zhengmao Zhu ZhiHua Yu Chen Zhenjun Chenghe Wang Yinan Wu Rong-Jun Qin Hongqiu Wu Ruijin Ding Huang Fangsheng
研究问题:如何准确建立环境动态模型,以支持各种下游任务,如反事实预测、离线强化学习和离策略评估。
动机:当前环境动态模型主要通过历史转换数据的逐步拟合进行学习,这种方法在序列决策环境中可能会由于行为策略的选择偏差而导致预测失败。
方法:提出了一种新的模型学习方法——对抗性加权经验风险最小化(AWRM)。该方法引入了一个对抗性策略,该策略利用模型生成一个削弱模型预测精度的数据分布,然后模型在这个对抗性数据分布下进行学习。
效果:实验证明,GALILEO可以准确预测反事实行动并改善各种下游任务,包括离线策略评估和改进以及在线决策制定。
Online Constrained Meta-Learning: Provable Guarantees for Generalization
Siyuan Xu Minghui Zhu
研究问题:本文旨在提出一种在线约束的元学习框架,该框架可以从连续的学习任务中持续学习元知识,且学习任务受到硬性约束。
动机:大多数现有的元学习方法只能从无约束的任务中学习,缺乏对新任务学习的加速和提升能力。
方法:通过考虑在线学习的动态遗憾以及特定任务模型的泛化能力,提出了一个在线约束的元学习框架,并给出了其最优性差距和约束违反的上限。同时,还提供了一个实用的算法。
效果:实验结果表明,该框架在元模仿学习和少样本图像分类等任务上表现出优越的效果。
Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality
Liyuan Wang Jingyi Xie Xingxing Zhang Mingyi Huang Hang Su Jun Zhu
研究问题:当前的策略在自我监督预训练下的表现不足,难以将任务特定知识整合到指示表示中。
动机:解决预训练中任务特定知识的整合问题,提高持续学习的性能。
方法:提出分层分解(HiDe-)Prompt方法,通过任务特定的提示和未指示和指示表示的统计数据的联合优化,明确优化分层组件。
效果:实验证明HiDe-Prompt的优越性能和对预训练范式的鲁棒性,在持续学习任务上取得了显著的提升。
Learning Generalizable Agents via Saliency-guided Features Decorrelation
Sili Huang Yanchao Sun Jifeng Hu Siyuan Guo Hechang Chen Yi Chang Lichao Sun Bo Yang
研究问题:在视觉强化学习中,由于状态空间中的特征之间存在内在关联,导致代理研究问题:在视觉强化学习中,由于状态空间中的特征之间存在内在关联,导致代理难以理解特征变化对决策的影响,从而无法很好地泛化到训练过程中未观察到的环境变化。
动机:为了解决这一问题,我们提出了一种名为“显著性引导的特征去相关”(SGFD)的方法,通过样本重权来消除特征之间的相关性。
方法:SGFD主要由随机傅里叶函数(RFF)和显著性图两个核心技术组成。RFF用于估计高维图像中的复杂非线性关联,而显著性图则用于识别变化的特征。在显著性图的指导下,SGFD通过样本重权来最小化与变化特征相关的估计关联,从而实现视觉RL任务中的去相关。
效果:实验结果表明,SGFD可以在广泛的测试环境中进行良好的泛化,并在处理任务无关变化和任务相关变化方面显著优于现有方法。
A Holistic Approach to Unifying Automatic Concept Extraction and Concept Importance Estimation
Thomas FEL Victor Boutin Louis Béthune Remi Cadene Mazda Moayeri Léo Andéol Mathieu Chalvidal Thomas Serre
研究问题:本文旨在通过提出一个统一的理论框架,将基于概念的方法解释性方法中的两个研究问题:本文旨在通过提出一个统一的理论框架,将基于概念的方法解释性方法中的两个关键步骤——概念提取和重要性估计进行统一,以更好地理解和解释深度神经网络的决策过程。
动机:近年来,基于概念的方法已成为最有前景的解释性方法之一,可以帮助我们解读深度神经网络(ANNs)的决策。这些方法试图在复杂的ANN激活模式中发现可理解的视觉“概念”。
方法:本文提出了一个统一的理论框架,将概念提取问题重新定义为字典学习的一个特例,并将概念重要性估计形式化为一种更一般的归因方法。
效果:该框架具有多个优点,包括提出新的评估指标来比较不同的概念提取方法,利用现代归因方法和评估指标来扩展和系统地评估最先进的基于概念的方法和重要性估计技术,以及获得关于这些方法的最优性的理论上的保证。此外,作者还开发了一个名为Lens的网站,为ImageNet数据集的所有类别提供了完整的可视化集合。
Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset Selection
Xilie Xu Jingfeng Zhang Feng Liu Masashi Sugiyama Mohan Kankanhalli
研究问题:对抗性对比学习(ACL)需要大量运行时间来生成所有训练数据的对抗变体,限制了其在大型数据集上的可扩展性。
动机:为了提高ACL的效率,本文提出了一种鲁棒性感知的核心集选择(RCS)方法。
方法:RCS通过寻找一个最小化表示性发散的有信息量的子集,无需标签信息,将ACL转化为一个子模最大化的替代问题,其贪婪搜索是原问题的最优解决方案。
效果:实验结果表明,RCS可以大幅提高ACL的效率,同时不会显著影响鲁棒性的转移性。在大规模ImageNet-1K数据集上,我们是首个有效利用RCS进行ACL以获取有效鲁棒表示的团队。
Beyond Myopia: Learning from Positive and Unlabeled Data through Holistic Predictive Trends
Wang Xinrui wan wenhai Chuanxing Geng Shao-Yuan Li Songcan Chen
研究问题:如何在无负标签的情况下,从正例和未标记的数据中学习二元分类器。
动机:在许多实际应用中,验证负例的困难使得从正例和未标记的数据中学习二元分类器(PUL)至关重要。尽管最近的PUL方法在实证性能上令人印象深刻,但由于缺乏负标签,累积错误和增加的估计偏差等问题仍然存在。
方法:本文揭示了PUL中的一个有趣但长期被忽视的观察结果:在每个训练迭代中重新采样正例数据以确保正例和未标记示例之间的平衡分布,可以产生强大的早期阶段性能。此外,正类和负类的预测趋势显示出明显不同的模式。我们创新地采用全局方法,将每个示例的分数解释为一个时间过程点过程(TPP),并将PUL的核心问题重新表述为识别这些分数的趋势。然后,我们提出了一种受TPP启发的新趋势检测方法,并证明其在预测变化方面的无偏性。
效果:广泛的实验验证了我们的方法的优越性,特别是在高度不平衡的真实世界设置中,其中关键指标的改进达到了11.3%。
CODA: Generalizing to Open and Unseen Domains with Compaction and Disambiguation
Chaoqi Chen Luyao Tang Yue Huang Xiaoguang Han Yizhou Yu
研究问题:现有的机器学习系统在测试分布偏离训练分布时,其泛化能力会显著下降。
动机:尽管领域泛化(DG)方法被用于使机器学习模型能够推广到未见过的数据域,但大多数DG方法都假设训练和测试数据具有相同的标签空间,忽视了许多实际应用中可能存在的未见过类别的问题。
方法:本文提出了一种名为“压缩与消歧”(CODA)的两阶段框架,用于学习紧凑表示并适应野外未知类别。CODA通过引入虚拟未知类别来优化新的训练目标,将未知类别插入潜在空间,从而压缩源已知类别的嵌入空间。然后,通过测试时间的训练目标来消除已知和未知类别之间的决策边界,以缓解适应性差距和灾难性遗忘的挑战。
效果:实验表明,CODA可以在标准DG数据集上显著优于先前的最佳方法,并在已知和未知类别之间统一分类精度。
A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment for Imbalanced Learning
Zitai Wang Qianqian Xu Zhiyong Yang Yuan He Xiaochun Cao Qingming Huang
研究问题:真实世界的数据通常是不平衡的,即只有少数类别有大量的样本,而许多类别只有少数样本。这导致朴素的ERM学习过程偏向于多数类,难以泛化到少数类。
动机:为了解决这个问题,我们提出了一种名为数据依赖收缩的新技术,以捕捉这些修改后的损失如何处理不同的类别。
方法:我们建立了一个精细的不平衡学习的广义界限,并基于理论洞察开发了一个原则性的学习算法。
效果:实验结果不仅验证了理论结果,而且展示了所提出方法的有效性。
Don’t blame Dataset Shift! Shortcut Learning due to Gradients and Cross Entropy
Aahlad Manas Puli Lily H Zhang Yoav Wald Rajesh Ranganath
研究问题:本文探讨了现有预训练语言模型在知识图谱利用上的不足,以及如何通过结合大规模文本语料库和知识图谱来训练一种增强的语言表示模型。
动机:现有的预训练语言模型往往忽视了知识图谱中的有信息量的实体,而这些实体可以通过外部知识来增强语言表示。
方法:本文提出了一种ERNIE模型,该模型采用大规模文本语料库和知识图谱进行联合训练,以充分利用词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。同时,作者还提出了一种新的损失函数——MARG-CTRL,可以更好地控制间隔,减少在感知任务中的捷径学习现象。
Two-Stage Learning to Defer with Multiple Experts
Anqi Mao Christopher Mohri Mehryar Mohri Yutao Zhong
研究问题:本研究针对多专家决策中的学习延迟问题进行研究,这是许多实际应用中的关键问题。
动机:在多专家决策中,存在一个学习延迟的问题,即如何将最合适的专家分配给每个输入。为此,我们设计了一种新的损失函数族来解决这个问题。
方法:我们首先通过训练一个预测器(例如使用交叉熵等常见损失函数)来获得预测结果,然后在第二阶段学习一个延迟函数,以将最合适的专家分配给每个输入。我们还设计了一种新的损失函数族,并证明了它们具有$H$-一致性边界,这意味着它们是贝叶斯一致的。
效果:虽然本研究的主要重点是理论分析,但我们还在CIFAR-10和SVHN数据集上进行了一些实验,并取得了良好的效果。
To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in Transfer Learning
Ildus Sadrtdinov Dmitrii Pozdeev Dmitry P. Vetrov Ekaterina Lobacheva
研究问题:如何提高神经网络的性能和鲁棒性,特别是在预训练成本高的情况下?
动机:由于预训练成本高昂,实践中常常使用从一个预训练检查点微调的模型集合。然而,这些模型最终会陷入同一损失景观的“预训练盆地”,导致多样性有限。
方法:我们提出了一种改进的“StarSSE”方法,通过对现有探索方法的分析,对转移学习设置下的快照集合(SSE)进行更有效的修改,以更好地探索预训练盆地。
效果:实验结果表明,这种方法可以产生更强的模型集合和更均匀的模型汤,从而提高了模型的性能和鲁棒性。
Red Teaming Deep Neural Networks with Feature Synthesis Tools
Stephen Casper Tong Bu Yuxiao Li Jiawei Li Kevin Zhang Kaivalya Hariharan Dylan Hadfield-Menell
研究问题:本文旨在探讨解释性AI工具在模型调试中的有效性,特别是在处理未知错误(OOD)情况时。
动机:尽管解释性AI工具的研究受到关注,但能发现模型中先前未知错误的案例相对较少。作者认为,这在一定程度上是由于许多解释性方法的一个共同特点:它们通过使用特定的数据集来分析模型行为。
方法:为了解决这个问题,越来越多的研究开始使用不依赖于数据集的特征合成方法来解释模型。在本文中,我们通过在模型中植入人类可解释的"木马"(trojans),然后评估这些工具是否能帮助人类发现它们,以此来衡量解释性工具的有用性。
效果:我们的实验表明,即使在有直接访问带有木马触发器的数据的理想条件下,最先进的16种特征归因/显著性工具也往往无法识别出这些"木马"。我们还对7种特征合成方法进行了评估,并介绍了2种新的最佳表现方法的变体。
Understanding the detrimental class-level effects of data augmentation
Polina Kirichenko Mark Ibrahim Randall Balestriero Diane Bouchacourt Shanmukha Ramakrishna Vedantam Hamed Firooz Andrew Gordon Wilson
研究问题:数据增强在图像分类任务中对模型性能的影响,以及其对不同类别精度的依赖性。
动机:尽管数据增强可以提高平均准确率,但其对某些类别精度的负面影响也明显,且对此的理解有限。
方法:通过使用ImageNet上的高质量多标签注释,系统地分类受影响的类别,并发现大多数类别本质上是模糊的、共同出现的或涉及细粒度的区别,而数据增强则控制了模型对这些密切相关类别的偏见。
效果:通过分析类别混淆,我们提出了一种简单的类别条件增强策略,可以改善受负面影响的类别的性能。
Compositional Generalization from First Principles
Thaddäus Wiedemer Prasanna Mayilvahanan Matthias Bethge Wieland Brendel
研究问题:如何实现组合泛化,即利用世界的组合性质来加速学习和促进泛化,这是人类感知的标志。
动机:在机器学习中,即使是具有明确组合先验的模型,实现组合泛化也被证明是一个难以达成的目标。为了更好地处理组合泛化,我们从底层开始研究。
方法:受到可识别表示学习(identifiable representation learning)的启发,我们将组合性视为数据生成过程的属性,而非数据本身。这种重新定义使我们能够推导出仅对训练分布的支持和模型架构的温和条件,这些条件足以实现组合泛化。
效果:我们进一步展示了我们的理论框架如何应用于现实世界的场景,并通过实证验证了我们的发现。我们的研究结果为组合泛化提供了一个有原则的理论研究平台。
Feature Learning for Interpretable, Performant Decision Trees
Jack Henry Good Torin Kovach Kyle Miller Artur Dubrawski
研究问题:现有的决策树模型在实际应用中存在深度过深、易过拟合和对输入敏感等问题,需要大量的专家特征工程。
动机:提出一种交替稀疏特征学习和可微分决策树构建的系统,以生成小型、可解释且性能良好的决策树。
方法:通过交替稀疏特征学习和可微分决策树构建,来优化决策树模型。
效果:与常规的基于树的模型进行基准测试,证明了该模型及其预测的解释性,并在多个任务上表现出良好的性能。
Prioritizing Samples in Reinforcement Learning with Reducible Loss
Shiva Kanth Sujit Somjit Nath Pedro Braga Samira Ebrahimi Kahou
研究问题:如何有效地利用经验回放缓冲区中的样本进行强化学习。
动机:并非所有样本都具有相同的显著性,简单地将等同的重要性分配给每个样本是一种简单策略。
方法:提出一种基于样本可学性的优先级采样方法,定义样本的可学性为训练损失随时间稳定减少的程度。开发了一种优先处理具有高可学性的样本,同时降低难以学习的样本(通常由噪声或随机性引起)的优先级的算法。
效果:在多个领域中,该方法比随机采样和仅根据训练损失(即优先经验回放中使用的时间差损失)进行优先排序的方法更稳健。
Group Robust Classification Without Any Group Information
Christos Tsirigotis Joao Monteiro Pau Rodriguez David Vazquez Aaron Courville
研究问题:现有的问题主要在于经验风险最小化(ERM)对训练数据中的虚假相关性非常敏感,这在高风险应用中部署系统时构成了重大风险。
动机:尽管现有的文献关注于最大化组平衡或最差组的准确性,但由于需要昂贵的偏见标注,这些数量的估计受到了阻碍。本研究认为当前的无偏监督方法在群体鲁棒性上仍然依赖于群体信息来实现最佳性能。
方法:我们提出了一种全新的无偏监督方式来训练和验证去偏模型。通过使用预训练的自监督模型来可靠地提取偏见信息,我们可以将日志调整训练损失与我们的验证标准相结合。
效果:我们在合成任务和真实世界任务上的实证分析表明,我们的方法克服了所识别的挑战,并始终提高了鲁棒准确性,其性能与依赖偏见标签进行验证的最先进的方法竞争甚至超越。
Adversarial Learning for Feature Shift Detection and Correction
Míriam Barrabés Daniel Mas Montserrat Margarita Geleta Xavier Giró-i-Nieto Alexander G Ioannidis
研究问题:如何在现实世界的应用中检测并修正特征偏移。
动机:在许多数据集(包括多传感器数据、表格和结构化数据)中,特征偏移可能出现,如某些传感器故障或数据处理流程错误等。
方法:利用对抗学习的原理,通过训练多个判别器来区分两种分布的信息,以检测和修复损坏的特征,从而消除数据集之间的分布偏移。
效果:结合简单的迭代启发式算法,主流的监督分类器(如随机森林或梯度提升树)能够定位并修正特征偏移,其性能超过了当前基于统计和神经网络的技术。
Automated Classification of Model Errors on ImageNet
Momchil Peychev Mark Niklas Mueller Marc Fischer Martin Vechev
研究问题:ImageNet数据集的标签噪声和模糊性使得仅使用top-1准确率无法充分衡量模型性能。
动机:为了解决这个问题,研究人员提出了新的标签集和评估协议,但这种方法耗时且需要专家参与。
方法:我们提出了第一个自动错误分类框架,用于研究模型选择如何影响错误分布。
效果:我们发现,无论模型架构、规模和预训练语料库如何,top-1准确率都是所有错误类型比例的强预测指标。此外,我们还发现严重错误的部分随着top-1准确率的提高而显著下降,表明尽管它低估了模型的真实性能,但仍是一个重要的性能度量标准。
Towards robust and generalizable representations of extracellular data using contrastive learning
Ankit Vishnubhotla Charlotte Loh Akash Srivastava Liam Paninski Cole Lincoln Hurwitz
研究问题:如何利用对比学习提取神经活动的强大和有意义的表示,并将其应用于关键的主要数据任务,如尖峰排序或细胞类型分类。
动机:尽管对比学习已被广泛应用于神经元群体数据,但在如何将其适应于关键的主要数据任务方面,如尖峰排序或细胞类型分类,还鲜有探索。
方法:提出了一种新颖的对比学习框架CEED(细胞外数据的对比嵌入),用于高密度细胞外记录。通过精心设计网络架构和数据增强,可以普遍提取出优于当前专门方法的表示。
效果:在多个高密度细胞外记录上验证了该方法,所有运行CEED的代码都可以在https://github.com/ankitvishnu23/CEED找到。
Spuriosity Didn’t Kill the Classifier: Using Invariant Predictions to Harness Spurious Features
Cian Eastwood Shashank Singh Andrei Liviu Nicolicioiu Marin Vlastelica Julius von Kügelgen Bernhard Schölkopf
研究问题:如何正确使用不稳定特征来提高模型在测试领域的性能,而不依赖于测试领域的标签。
动机:尽管不稳定的特征可能会改变其与标签的关系,但它们往往携带着可以提升性能的补充信息。
方法:提出稳定特征增强(SFB)算法,该算法通过学习一个预测器来区分稳定和条件独立的不稳定特征,并利用稳定特征的预测结果来调整测试领域中不稳定特征的预测结果。
效果:理论证明SFB可以在没有测试领域标签的情况下学习到渐近最优的预测器。在真实和合成数据上的实验表明,SFB具有很好的效果。
SaVeNet: A Scalable Vector Network for Enhanced Molecular Representation Learning
Sarp Aykent Tian Xia
研究问题:如何有效地捕捉分子在空间维度上的复杂几何特征,以应对模型化高效的几何表示和学习3D结构模型的内在相关性的挑战。
动机:尽管几何深度学习在各种分子表示学习任务上取得了显著的突破,但由于模型化高效的几何表示和学习3D结构模型的内在相关性存在重大困难,因此对跨越空间维度的有效捕捉复杂几何特征的研究仍然不足。
方法:我们引入了一个高效且有效的框架——可扩展向量网络(SaVeNet),该框架设计用于适应各种几何需求,而无需依赖昂贵的嵌入。此外,所提出的框架可以有效地处理引入的方向噪声。
效果:通过理论分析和实验验证,我们的模型在效率和表现力上都优于现有的方法。在合成和真实世界的数据集上的实验结果证明了我们模型的表现力,它在分子表示学习的各种任务上都达到了最先进的性能。
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes
Alexandre Max Maraval Matthieu Zimmer Antoine Grosnit Haitham Bou Ammar
研究问题:如何通过联合训练替代模型和采集函数,提高贝叶斯优化的样本效率。
动机:现有的方法可以独立地元学习替代模型或采集函数,但将两者联合训练仍然是一个开放的挑战。
方法:提出了第一个端到端的可微元贝叶斯优化框架,该框架通过变压器架构对获取函数进行学习,并使用强化学习解决缺乏标记采集数据的问题。
效果:在标准的超参数优化任务上,该方法实现了最先进的遗憾结果,并在混合整数规划调整、抗体设计和电子设计自动化的逻辑合成等实际问题中超越了其他方法。
Improvements on Uncertainty Quantification for Node Classification via Distance Based Regularization
Russell Alan Hart Linlin Yu Yifei Lou Feng Chen
研究问题:本文旨在解决深度神经网络的不确定性量化问题,特别是在节点级分类中的互依赖性。
动机:当前深度学习模型的预测结果往往不可靠,而不确定性量化对于分布外(OOD)检测和误分类检测等应用至关重要。
方法:本文从优化不确定性交叉熵(UCE)损失函数的图后验网络(GPNs)出发,针对广泛使用的UCE损失的理论局限性,提出了一种基于距离的正则化方法,鼓励分布在外的节点在潜在空间中保持聚类。
效果:通过在八个标准数据集上进行大量实验,证明所提出的正则化方法在OOD检测和误分类检测上都优于现有技术。
UP-DP: Unsupervised Prompt Learning for Data Pre-Selection with Vision-Language Models
Xin Li Sima Behpour Thang Doan Wenbin He Liang Gou Liu Ren
研究问题:如何优化未标记数据集的实例选择,以在有限的标注预算下提高未定义的下游任务的性能。
动机:目前的数据预选方法主要依赖于从基础模型(如CLIP和BLIP-2)提取的视觉特征,但忽视了文本特征的强大作用。
方法:提出了一种简单而有效的无监督提示学习方法UP-DP,该方法通过训练文本提示来提取改进后的代表特征,确保覆盖整个数据集的多样化集群结构。
效果:在七个不同设置的基准数据集上进行了广泛的比较,性能提高了高达20%。此外,从一个数据集中学习到的提示具有显著的泛化性,可以直接应用于增强其他数据集的BLIP-2特征提取。
Beyond Invariance: Test-Time Label-Shift Adaptation for Addressing "Spurious" Correlations
Qingyao Sun Kevin Patrick Murphy Sayna Ebrahimi Alexander D'Amour
研究问题:测试时间数据分布的变化可能对预测模型的性能产生有害影响。
动机:存在能解释这种分布变化的额外元数据标签,我们考虑了这种情况,并假设类标签和“干扰”因素之间的依赖关系可能会因域而异。
方法:我们提出了一种测试时标签转移校正方法,该方法使用EM应用于目标领域分布的未标记样本来适应联合分布的变化。
效果:我们在多个标准图像和文本数据集以及CheXpert胸部X射线数据集上评估了这种方法,结果显示,它比那些针对分布变化不变性的方法以及基线经验风险最小化方法有更优的表现。
Enhancing CLIP with CLIP: Exploring Pseudolabeling for Limited-Label Prompt Tuning
Cristina Menghini Andrew Delworth Stephen Bach
研究问题:测试时间数据分布的变化可能对预测模型的性能产生有害影响。
动机:存在能解释这种分布变化的额外元数据标签,我们考虑了这种情况,并假设类标签和“干扰”因素之间的依赖关系可能会因域而异。
方法:我们提出了一种测试时标签转移校正方法,该方法使用EM应用于目标领域分布的未标记样本来适应联合分布的变化。
效果:我们在多个标准图像和文本数据集以及CheXpert胸部X射线数据集上评估了这种方法,结果显示,它比那些针对分布变化不变性的方法以及基线经验风险最小化方法有更优的表现。
Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization
Jameel Hassan Abdul Samadh Hanan Gani Noor Hazim Hussein Muhammad Uzair Khattak Muzammal Naseer Fahad Khan Salman Khan
研究问题:如何通过调整文本提示来适应未见过领域的视觉语言模型,以解决分布偏移的问题。
动机:现有的测试时间提示调优方法忽视了分布偏移这一导致性能下降的关键原因。
方法:通过最小化特征分布偏移,使用单个测试样本在测试时调整多模态提示,以弥合测试领域的鸿沟。
效果:在领域泛化基准测试中,该方法比现有的提示学习方法提高了零射一准确率,比基线MaPLe提高了3.08%。在10个数据集的跨数据集泛化中,与现有的最先进技术相比,该方法在所有数据集上都有所提高。
On Separate Normalization in Self-supervised Transformers
Xiaohui Chen Yinkai Wang Yuanqi Du Soha Hassoun Liping Liu
研究问题:现有的预训练语言模型如何更好地利用结构化知识,提升语言理解能力?
动机:目前的预训练语言模型如BERT等,虽然能捕获丰富的语义模式,但很少考虑结合知识图谱进行训练。
方法:本文提出一种增强的语言表示模型ERNIE,通过大规模文本语料库和知识图谱联合训练,充分利用词汇、句法和知识信息。
效果:实验结果显示,ERNIE在各种知识驱动任务上表现显著提升,同时在其他常见NLP任务上与BERT相媲美。
Energy-based learning algorithms for analog computing: a comparative study
Benjamin Scellier Maxence Ernoult Jack Kendall Suhas Kumar
研究问题:本研究旨在比较七种基于能量的学习算法,包括对比学习、平衡传播和耦合学习等,以确定它们在实践中的可扩展性和选择最佳算法。
动机:尽管这些算法在模拟数字硬件中具有兼容性,但它们从未在相同的模型和数据集上进行过直接比较,使得评估其可扩展性并在实际中选择最佳算法变得困难。
方法:使用这七种学习算法,我们在五个视觉任务(MNIST、F-MNIST、SVHN、CIFAR-10和CIFAR-100)上训练深度卷积Hopfield网络(DCHNs)。我们发现,虽然所有算法在MNIST上的表现相当,但随着任务难度的增加,性能差异显著。
效果:我们的主要发现表明,负向扰动优于正向扰动,并强调了使用两个相反符号的扰动的中心化版本的EP(平衡传播)作为表现最佳的算法。此外,我们还通过理论论证支持了这些发现。在性能和速度方面,我们的DCHN在所有五个数据集上都取得了新的最先进的结果。特别是,由于使用了基于异步更新和降低精度(16位)的新型能量最小化算法,我们的DCHN模拟比Laborieux等人(2021)快13.5倍。
Conformal Prediction Sets for Ordinal Classification
PRASENJIT DEY Srujana Merugu Sivaramakrishnan R Kaveri
研究问题:如何利用现有的预测方法,对有序分类任务进行优化,以生成具有保证覆盖范围和最小基数的连续集合。
动机:在实际应用中,对于有序分类任务,通常希望获得一个包含真实类别可能性很高的小集合。现有的预测方法虽然可以解决非有序标签的分类问题,但产生的预测集合往往是不连续的,不适合有序分类。
方法:提出一种框架,将现有的预测方法适应于生成连续集合,该框架采用一种新的非参数方法来建模单峰分布。
效果:在合成数据集和真实世界数据集上的实验结果表明,该方法在准确率@K上比最先进的基线高出4%,在预测集大小上高出8%。
Graph of Circuits with GNN for Exploring the Optimal Design Space
Aditya Hemant Shahane Saripilli Venkata Swapna Manjiri Ankesh Jain Sandeep Kumar
研究问题:模拟电路的设计自动化在设计空间大、电路规格间复杂依赖关系和资源密集型模拟等方面面临重大挑战。
动机:为了解决这些挑战,本文提出了一种创新的框架——电路图探索器(GCX)。
方法:利用图结构学习和图神经网络,GCX能够在半监督学习框架中创建高效的最优设计空间探索的替代模型,从而减少对大型标记数据集的需求。该方法包括三个关键阶段:首先,学习电路的几何表示并丰富其技术信息以创建全面的特征向量;其次,将基于特征的图学习和少次或零次学习相结合,增强对未见过电路的预测泛化能力;最后,引入两种算法——EASCO和ASTROG,与GCX集成优化可用样本以产生满足设计师标准的最优电路配置。
效果:通过使用180nm CMOS技术中的衍生参数对各种电路进行模拟性能评估,证明了所提出方法的有效性。此外,该方法的通用性已扩展到更高阶拓扑和不同的工艺节点,如65nm和45nm CMOS工艺节点。
Resilient Constrained Learning
Ignacio Hounie Alejandro Ribeiro Luiz F. O. Chamon
研究问题:在部署机器学习解决方案时,除了准确性外,还需要考虑公平性、鲁棒性和安全性等多重要求。
动机:这些要求的制定受到妥协和对数据有限知识的限制,其对性能的影响通常只能通过实际解决学习问题来评估。
方法:本文提出了一种适应性调整需求的约束学习方法,通过权衡放松对任务影响的性能增益与用户定义的放松成本来实现。
效果:该方法在涉及多个潜在不变性的图像分类任务和分布偏移下的联邦学习中展示了优势。
ExPT: Synthetic Pretraining for Few-Shot Experimental Design
Tung Nguyen Sudhanshu Agrawal Aditya Grover
研究问题:本文旨在解决实验设计中样本效率低下的问题,特别是在只有少量标注数据可用的少数镜头实验设计场景。
动机:现有的方法要么依赖于主动数据收集,要么依赖于大量过去的实验标记数据集,这在许多现实场景中是不现实的。
方法:本文将此问题视为条件生成任务,模型根据少数标注示例和期望的输出生成最优输入设计。为此,引入了实验预训练变压器(ExPT),一种用于少数镜头实验设计的基础设施模型,该模型采用合成预训练与上下文学习的创新组合。
效果:在具有挑战性的领域中评估ExPT,并证明其相比现有方法具有优越的通用性和性能。
Ess-InfoGAIL: Semi-supervised Imitation Learning from Imbalanced Demonstrations
Huiqiao Fu Kaiqiang Tang Yuanyang Lu Yiming Qi Guizhou Deng Flood Sung Chunlin Chen
研究问题:本研究旨在解决模仿学习中的现实挑战,如多模态、数据不平衡和昂贵的标签过程。
动机:现有的模仿学习方法在处理现实世界的示范时面临诸多挑战,如多模态、数据不平衡和昂贵的标签过程。
方法:我们提出了一种新的半监督模仿学习架构,该架构使用有限的标记数据从不平衡的示范中学习分离的行为表示。具体来说,我们的方法包括三个关键组件:首先,我们将半监督生成对抗网络的概念适应到模仿学习环境中;其次,我们采用可学习的潜变量分布来对齐生成的数据和专家数据分布;最后,我们利用正则化的信息最大化方法和近似标签先验来进一步提高半监督学习的性能。
效果:实验结果表明,与基线方法相比,我们的方法在从不平衡的示范中学习多模态行为方面更为有效。
Ensemble-based Deep Reinforcement Learning for Vehicle Routing Problems under Distribution Shift
Yuan Jiang Zhiguang Cao Yaoxin Wu Wen Song Jie Zhang
研究问题:现有的车辆路线问题(VRPs)的神经方法在处理分布偏移时表现不佳。
动机:为了解决这个问题,我们提出了一种基于深度学习的强化学习方法,该方法通过学习一组多样化的子策略来应对各种实例分布。
方法:我们利用随机初始化引导子策略之间的多样性,并通过训练期间利用正则化项来进一步增加子策略之间的差异性。
效果:实验结果表明,我们的方法能够在各种分布的随机生成实例上超越最先进的神经网络基线,并在TSPLib和CVRPLib的基准实例上表现出良好的泛化能力。
Generalized test utilities for long-tail performance in extreme multi-label classification
Erik Schultheis Marek Wydmuch Wojciech Kotlowski Rohit Babbar Krzysztof Dembczynski
研究问题:多标签分类中,大部分标签只有少数正例,如何准确预测这些“尾部”标签?
动机:现有的评估指标无法准确衡量尾部标签的预测效果,需要一种新的度量方法。
方法:提出一种基于期望测试效用(ETU)框架的新度量方法,并推导出最优预测规则和计算效率高的近似算法。
效果:该算法在极端多标签分类问题上表现良好,能有效提升尾部标签的预测性能。
Accessing Higher Dimensions for Unsupervised Word Translation
Sida Wang
研究问题:现有的无监督词翻译方法都依赖于低维词向量预训练,但这种方法是否必要尚无定论。
动机:本文旨在挑战这一假设,通过开发一种能利用高维信号的方法来测试其有效性。
方法:本文提出的方法不再受限于低维限制,而是充分利用高维信号和更好的去噪方法。
效果:实验结果表明,该方法在英语到芬兰语、匈牙利语和中文的翻译任务上表现优异,且所需资源较少,仅需不到80MB的内存和几分钟的CPU时间即可达到超过50%的准确率。即使在领域不匹配的情况下,该方法也能在英语新闻抓取到中文维基百科和英语欧洲议会到西班牙语维基百科等任务上完全无监督地工作。这些结果挑战了对低维向量的必要性和优越性的普遍假设,表明高维信号可以被利用而不是被丢弃。
Why Does Sharpness-Aware Minimization Generalize Better Than SGD?
Zixiang Chen Junkai Zhang Yiwen Kou Xiangning Chen Cho-Jui Hsieh Quanquan Gu
研究问题:本文旨在解决深度学习模型过拟合的问题,特别是在非线性神经网络和分类任务中。
动机:过拟合是训练大型神经网络时的一个重大挑战,模型会记住训练数据而无法泛化到测试数据。Sharpness-Aware Minimization (SAM) 是一种有前景的训练方法,即使在标签噪声存在的情况下也能提高神经网络的泛化能力。然而,对于 SAM 在非线性神经网络和分类任务中如何工作的深入理解仍然缺乏。
方法:本文通过展示 SAM 为何比随机梯度下降(SGD)在某些数据模型和两层卷积 ReLU 网络中更好地泛化来填补这一空白。我们研究的问题的损失景观是非平滑的,因此基于海森矩阵信息的当前 SAM 成功解释是不充分的。我们的结果解释了 SAM 的好处,特别是其防止早期阶段噪声学习的能力,从而促进更有效的特征学习。
效果:我们在合成数据和真实数据上的实验结果都证实了我们的理论。
Graph-Structured Gaussian Processes for Transferable Graph Learning
Jun Wu Lisa Ainsworth Andrew Leakey Haixun Wang Jingrui He
研究问题:如何将知识从源图迁移到相关的目标图,解决源图和目标图之间的分布偏移问题。
动机:现有的可迁移图学习面临源图和目标图之间由于节点属性和复杂图结构引起的分布偏移的挑战。
方法:提出一种通用的基于图结构的高斯过程框架(GraphGP),无论在同质或异质假设下,都能自适应地在图中迁移知识。
效果:通过在几个可迁移的图学习基准上进行广泛的实验,证明GraphGP优于最先进的高斯过程基线。
Progressive Ensemble Distillation: Building Ensembles for Efficient Inference
Don Dennis Abhishek Shetty Anish Sevekari Kazuhito Koishida Virginia Smith
研究问题:如何将大型预训练教师模型分解为一组较小的、低推理成本的学生模型。
动机:为了在保证准确性的同时降低推理成本,提高模型的推理效率。
方法:使用B-DISTIL方法,通过提升程序和基于聚合规则的函数组合来构建具有相似性能且比使用更小的学生模型更为表达丰富的模型。
效果:通过在各种图像、语音和传感器数据集上分解预训练模型,证明了B-DISTIL方法的有效性,并从收敛性和泛化性方面提供了强有力的理论保证。
SPA: A Graph Spectral Alignment Perspective for Domain Adaptation
Zhiqing Xiao Haobo Wang Ying Jin Lei Feng Gang Chen Fei Huang Junbo Zhao
研究问题:如何将预训练的语言模型与知识图谱相结合,以增强语言表示。
动机:目前的预训练语言模型缺乏对结构化知识的利用,而知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱联合训练ERNIE模型,同时捕捉词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Finding Order in Chaos: A Novel Data Augmentation Method for Time Series in Contrastive Learning
Berken Utku Demirel Christian Holz
研究问题:对比学习的成功依赖于数据增强,但时间序列数据增强由于其复杂的生成机制(如心血管系统的复杂机制)而是一个挑战性的问题。
动机:尽管在视觉等领域通过预定义的技术很好地控制了数据增强的程度,但目前还没有被广泛认可和通用的时间序列数据增强方法可以应用于不同的任务。
方法:本文提出了一种新的用于时间序列任务的数据增强方法,该方法旨在将同类样本连接在一起,从而在潜在空间中找到顺序。这种方法建立在已知的数据增强技术mixup之上,并引入了一种考虑时间序列数据的非平稳特性的新方法。
效果:我们在三个时间序列任务上评估了我们提出的方法,包括心率估计、人体活动识别和心血管疾病检测。与最先进的方法进行的大量实验表明,我们的方法在三个任务上优于现有的最佳数据生成方法和已知的数据增强技术,反映了所提出方法的有效性。
ProteinNPT: Improving protein property prediction and design with non-parametric transformers
Pascal Notin Ruben Weitzman Debora Susan Marks Yarin Gal
研究问题:本文旨在解决蛋白质设计中的挑战,包括设计空间的广泛性、功能区域的稀疏性和可用标签的稀缺性。
动机:蛋白质设计具有巨大的优化自然序列的潜力,广泛应用于药物发现、材料设计和可持续性。然而,计算方法在处理蛋白质工程时面临重大挑战。
方法:本文提出了一种非参数化的变压器变体ProteinNPT,专门用于蛋白质序列,特别适合于标签稀缺和多任务优化设置。
效果:实验结果表明,ProteinNPT在所有蛋白质性质预测任务上都优于所有现有的最佳基线,并在几个虚拟贝叶斯优化实验中展示了其迭代蛋白质设计的价值。
Robust Data Pruning under Label Noise via Maximizing Re-labeling Accuracy
Dongmin Park Seola Choi Doyoung Kim Hwanjun Song Jae-Gil Lee
研究问题:如何通过数据修剪减少大规模训练集的大小,同时保持模型的准确性和泛化能力。
动机:现代深度学习需要处理大规模的数据集,这会导致巨大的计算成本。尽管已经开发了许多鲁棒的学习方法来处理带有标注噪声的数据,但针对噪声鲁棒学习场景的数据修剪问题尚未得到充分关注。
方法:本文提出了一种新的数据修剪算法Prune4Rel,该算法通过最大化所有训练样本的邻居置信度来找到最优的子集,从而提高重标定的准确性和模型的泛化性能。
效果:在四个真实和五个合成的噪声数据集上的大量实验表明,Prune4Rel比使用重标定模型的基线提高了9.1%,比使用标准模型的基线提高了21.6%。
Reverse Engineering Self-Supervised Learning
Ido Ben-Shaul Ravid Shwartz-Ziv Tomer Galanti Shai Dekel Yann LeCun
研究问题:本文旨在通过“反向工程”方法,深入分析自监督学习(SSL)的习得内部表示,包括不同的模型、架构和超参数。
动机:理解自监督学习的习得表示和底层机制常常具有挑战性。
方法:通过对多种模型、架构和超参数进行深入研究,揭示出自监督训练中一个有趣的过程:即语义标签基础聚类的内在促进作用,这一过程令人惊讶地由自监督目标的正则化组件驱动。
效果:实验结果表明,这种聚类不仅增强了下游分类,还压缩了信息。此外,我们发现自监督训练的表示与不同层次的语义类别的对齐更为显著,且网络越深,这种对齐越强。这种“反向工程”方法为我们提供了深入了解自监督学习内部机制及其在不同类别集上性能影响的重要见解。
Accelerating Molecular Graph Neural Networks via Knowledge Distillation
Filip Ekström Kelvinius Dimitar Georgiev Artur Toshev Johannes Gasteiger
研究问题:如何利用知识蒸馏(KD)加速分子图神经网络(GNNs)并提高其预测精度。
动机:尽管最新的图神经网络在分子属性预测和分子模拟上取得了显著进步,但复杂的模型结构和大规模应用需求使得其在实际应用中面临性能瓶颈。
方法:通过设计特定的知识蒸馏策略,对方向性和等变图神经网络的隐藏表示进行蒸馏,并在能量和力预测任务上评估其性能。
效果:实验结果表明,该方法可以显著提高学生模型的预测精度,同时保持了轻量级模型的推理吞吐量,对于能量和力预测,教师模型与学生模型之间的预测精度差距分别达到了96.7%和62.5%。
Modality-Agnostic Self-Supervised Learning with Meta-Learned Masked Auto-Encoder
Huiwon Jang Jihoon Tack Daewon Choi Jongheon Jeong Jinwoo Shin
研究问题:尽管自我监督学习在各种模态中具有实际重要性,但最近的进展主要集中在几个精心策划的领域,如视觉和语言,通常依赖于其特定领域的知识。
动机:例如,掩码自动编码器(MAE)已成为这些领域中流行的架构之一,但在其他模态中的潜力尚未得到充分探索。
方法:本文将MAE开发为一个统一的、模态无关的自我监督学习框架。我们主张元学习是解释MAE作为模态无关学习者的关键,并提出从提高其在多样化模态中自我监督学习的动机出发,对MAE进行增强,结果被称为MetaMAE。
效果:我们的实验表明,MetaMAE在模态无关的自我监督学习基准(称为DABS)上表现出优越性,显著优于先前的基线。
Frequency Domain-Based Dataset Distillation
DongHyeok Shin Seungjae Shin Il-chul Moon
研究问题:本文提出了一种新的数据集蒸馏参数化方法FreD,该方法利用频率域从大型原始数据集中蒸馏出小型的合成数据集。
动机:与传统的空间域方法不同,FreD采用基于频率的转换来优化每个数据实例的频率表示。通过利用空间域信息在特定频率组件上的集中,FreD智能地选择一部分频率维度进行优化,从而显著减少了合成一个实例所需的预算。
方法:FreD通过基于解释方差的频段选择,展示了其在有限预算内有效运作的能力,同时与现有的参数化方法相比,更好地保留了原始数据集的信息。
效果:实验结果表明,FreD在各种基准数据集的评价场景中,始终优于现有的蒸馏方法。
Simplifying Neural Network Training Under Class Imbalance
Ravid Shwartz-Ziv Micah Goldblum Yucen Lily Li C. Bayan Bruss Andrew Gordon Wilson
研究问题:如何改善深度学习模型在面对高度不平衡的真实世界数据集时的性能。
动机:真实世界的数据集往往存在严重的类别不平衡问题,这会对深度学习模型的性能产生负面影响。大多数关于训练神经网络应对类别不平衡的研究都集中在专门的损失函数和采样技术。
方法:我们证明了只需调整标准深度学习流程中现有的组件,如批量大小、数据增强、架构大小、预训练、优化器和标签平滑,就可以在无需任何专门的损失函数或采样器的情况下实现最先进的性能。
效果:我们的实验结果表明,这种方法可以显著提高模型在处理类别不平衡数据时的性能,同时我们也提供了训练时应对类别不平衡的关键建议和注意事项。
A Partially-Supervised Reinforcement Learning Framework for Visual Active Search
Anindya Sarkar Nathan Jacobs Yevgeniy Vorobeychik
研究问题:如何有效地利用视觉线索在大型地理空间区域中进行探索,以识别感兴趣的区域。
动机:现有的视觉主动搜索(VAS)模型,如深度强化学习(DRL)和传统主动搜索,虽然在某些领域表现优秀,但无法充分利用训练或实际搜索过程中获得的监督信息,限制了其在与训练分布差异较大的搜索任务中的应用。
方法:本文提出了一种结合DRL和传统主动搜索的方法,将搜索策略分解为预测模块和搜索模块。预测模块根据任务嵌入和搜索历史生成感兴趣区域的地理空间分布;搜索模块则将预测和搜索历史作为输入输出搜索分布。此外,还开发了一种新颖的元学习方法,用于联合学习得到的有效利用训练和决策时间获得的监督信息的合并策略。
效果:实验结果表明,所提出的表示和元学习框架在几个问题域上的视觉主动搜索性能显著优于现有技术。
Causal Effect Regularization: Automated Detection and Removal of Spurious Correlations
Abhinav Kumar Amit Deshpande Amit Sharma
研究问题:在许多分类数据集中,任务标签与一些输入属性存在误导性关联。当部署时属性的相关性发生变化时,基于此类数据集训练的分类器往往会依赖于这些属性进行预测,从而无法泛化。
动机:在真实世界的数据中,关于误导性属性的信息通常是不可用的。因此,我们提出了一种方法来自动识别误导性属性,通过估计它们对标签的因果效应,然后使用正则化目标来减轻分类器对它们的依赖。
方法:我们的方法通过估计属性对标签的因果效应,并使用正则化目标来降低分类器对这些属性的依赖性,从而自动识别出误导性的属性。
效果:与最近的一种识别误导性属性的方法相比,我们的方法在从学习到的模型中移除属性方面更准确,特别是在误导性相关性较高的情况下。此外,即使在因果效应的估计存在噪声的情况下,我们的方法也能减少对误导性属性的依赖。
Active Negative Loss Functions for Learning with Noisy Labels
Xichen Ye Xiaoqiang Li Songmin Dai Tong Liu Yan Sun Weiqin Tong
研究问题:如何训练深度神经网络在存在噪声标签的情况下?
动机:现有的鲁棒损失函数使用平均绝对误差(MAE)作为其必要组成部分,但这种方法对每个样本都一视同仁,减慢了收敛速度,使训练变得困难。
方法:提出一种新的理论鲁棒无源损失函数——*标准化负损失函数*(NNLFs),这种函数更关注记忆的干净样本。通过将APL中的MAE替换为提出的NNLFs,改进了APL并提出了一个新的框架——*积极负面损失*(ANL)。
效果:实验结果表明,我们通过ANL框架创建的新的损失函数集可以超越最先进的方法。
GAN You See Me? Enhanced Data Reconstruction Attacks against Split Inference
Ziang Li Mengda Yang Yaxin Liu Juan Wang Hongxin Hu Wenzhe Yi Xiaoyang Xu
研究问题:本文旨在解决深度学习中的计算限制和数据隐私问题,特别是在边缘设备上的问题。
动机:尽管分片推理(SI)是一种新兴的深度学习模式,可以解决边缘设备的计算限制并保护数据隐私,但它容易受到数据重建攻击(DRA)。现有的攻击方法存在各种局限性,如优化基的DRA无法有效利用公共数据,而基于学习的DRA严重依赖辅助数据的量和分布相似性。
方法:为了克服这些挑战,我们提出了一种基于生成对抗网络(GAN)的潜在空间搜索攻击(GLASS)。该方法利用先进的StyleGAN技术从公共数据中获取丰富的先验知识。此外,我们还引入了GLASS++来增强重建的稳定性。
效果:我们的方法是第一个针对SI的基于GAN的DRA,通过在不同的分片点和对手设置下进行广泛的评估,证明了其最先进的性能。此外,我们还详细检查了七种防御机制,强调了我们的方法即使在这些防御措施存在的情况下也能揭示私人信息的能力。
Secure Out-of-Distribution Task Generalization with Energy-Based Models
Shengzhuang Chen Long-Kai Huang Jonathan Richard Schwarz Yilun Du Ying Wei
研究问题:元学习在野外分布外(OOD)任务上的效果并不稳定,如何保证元学习到的先验知识对OOD任务的泛化能力,特别是在安全关键应用中。
动机:现有的贝叶斯元学习方法在检测OOD任务和适应先验知识方面的可靠性受到特征分布偏移覆盖不完整和元学习到的先验知识表达能力不足的限制。
方法:构建一个支持检测和适应OOD任务的单一连贯框架,同时兼容现有的元学习基础。提出的基于能量的元学习(EBML)框架通过两个具有表达能力的神经网络能量函数的组合来描述任何任意的元训练任务分布。
效果:实验结果表明,该方法在四个回归和分类数据集上都表现出了有效性。
PERFOGRAPH: A Numerical Aware Program Graph Representation for Performance Optimization and Program Analysis
Ali TehraniJamsaz Quazi Ishtiaque Mahmud Le Chen Nesreen K. Ahmed Ali Jannesari
研究问题:如何有效地表示编程语言,以使机器学习方法能够更好地理解和推理程序。
动机:当前的语言表示方法由于缺乏数值意识、聚合数据结构信息以及变量表示方式不当等问题,限制了其性能和应用范围。
方法:提出了一种新的基于图的编程语言表示方法PERFOGRAPH,通过引入新的节点和边来捕捉数值信息和聚合数据结构,同时提出一种适应性嵌入方法来引入数值意识。
效果:实验结果表明,PERFOGRAPH在各种应用中表现出色,包括程序分析、性能优化和并行性发现等,并在著名的设备映射挑战中将错误率降低了7.4%(AMD数据集)和10%(NVIDIA数据集),创造了新的最先进的结果。
TriRE: A Multi-Mechanism Learning Paradigm for Continual Knowledge Retention and Promotion
Preetha Vijayan Prashant Shivaram Bhat Bahram Zonooz Elahe Arani
研究问题:本文旨在解决深度学习网络在连续学习中由于先前学习任务的灾难性遗忘(CF)而面临的挑战。
动机:尽管已有的技术如权重正则化、经验复述和参数隔离等在一定程度上缓解了遗忘问题,但这些方法大多相互独立,存在一些不足,同时也错过了竞争策略的优势。
方法:受大脑如何同时利用神经发生、主动遗忘、神经调制、可塑性、经验复述和上下文依赖门控等多种神经生理过程来学习、适应和跨任务转移知识的启发,我们提出了TriRE,这是一种新的连续学习范式,包括保留每个任务最突出的神经元,修订和巩固当前和过去任务提取的知识,并通过倒带和重新学习来主动推动后续任务的非活跃神经元。
效果:在各种连续学习设置中,TriRE显著减少了任务干扰,并超越了单独考虑的不同连续学习方法。
Scalarization for Multi-Task and Multi-Domain Learning at Scale
Amelie Royer Tijmen Blankevoort Babak Ehteshami Bejnordi
研究问题:如何优化多领域和多任务学习的网络,特别是在不同任务或领域之间存在差异的情况下?
动机:训练一个单一的模型在多个输入领域和/或输出任务上,可以将来自多个来源的信息压缩到一个统一的主干中,从而提高模型效率。同时,它也可以实现跨任务/领域的知识转移,提高准确性和数据效率的训练。
方法:我们首先设计了一个大规模的统一分析,以更好地理解各种任务/领域组合和模型大小的标量化动态。然后,我们提出利用基于种群的训练来有效地搜索大量任务或领域的最优标量化权重。
效果:实验结果表明,这种方法在处理大量任务或领域时,可以有效地找到最优的标量化权重,提高了模型的效率和准确性。
Revisiting Visual Model Robustness: A Frequency Long-Tailed Distribution View
Zhiyu Lin Yifei Gao Yunfan Yang Jitao Sang
研究问题:视觉模型的鲁棒性缺乏的原因是什么?
动机:目前的理论认为,视觉模型对人眼无法察觉的高频率成分(HFC)的利用是其鲁棒性不足的原因。
方法:本文从频率长尾的角度重新定义了HFC,并重新审视了HFC与模型鲁棒性的关系。在频率长尾的情况下,通过实验发现标准训练的模型对HFC非常敏感,原因是模型在HFC上的信息量有限。基于这些发现,提出了平衡频谱采样(BaSS)策略,以有效对抗长尾效应并增强模型对HFC的学习。
效果:实验结果表明,该方法在与现有防御方法结合时,实现了显著的鲁棒性-准确性权衡改善,同时表明鼓励HFC学习可以提高模型性能。
Implicit variance regularization in non-contrastive SSL
Manu Srinath Halvagal Axel Laborieux Friedemann Zenke
研究问题:非对比性自监督学习方法如BYOL和SimSiam如何通过不使用负样本的非对称预测器网络避免表示崩溃,以及预测器网络如何促进稳定的学习。
动机:尽管先前的理论分析假设了欧几里得损失,但大多数实际应用依赖于余弦相似性。为了进一步理解非对比性SSL,本研究对闭合形式线性预测器网络的欧几里得和余弦相似性在学习动态中进行了深入的理论分析。
方法:我们分析了在封闭形式的线性预测器网络的特征空间中,学习动态与欧几里得和余弦相似性的关联。我们发现,尽管通过不同的动态机制,两者都通过隐含的方差正则化避免了崩溃。此外,我们发现特征值可以作为有效的学习率乘数,并提出了一类各向同性损失函数(IsoLoss),可以在各个特征模态上均衡收敛速度。
效果:实验结果表明,IsoLoss加快了初始学习动态并提高了鲁棒性,从而允许我们不再需要通常用于非对比方法的EMA目标网络。我们的分析揭示了非对比性SSL的方差正则化机制,并为塑造预测器频谱的学习动态奠定了理论基础。
Auxiliary Losses for Learning Generalizable Concept-based Models
Ivaxi Sheth Samira Ebrahimi Kahou
研究问题:如何提高神经网络模型的透明度,同时避免学习到无关的概念表示。
动机:现有的概念瓶颈模型(CBMs)虽然提高了模型的透明度,但常常学习到无关的概念表示,损害了模型性能。
方法:提出合作概念瓶颈模型(coop-CBM),通过引入概念正交损失(COL)来鼓励概念表示之间的分离和减小概念内距离。
效果:在各种分布偏移设置下,coop-CBM模型在所有数据集上都实现了更高的准确率,甚至超过了具有最高概念准确率的黑盒模型。
Prompt-augmented Temporal Point Process for Streaming Event Sequence
Siqiao Xue Yan Wang Zhixuan Chu Xiaoming Shi Caigao JIANG Hongyan Hao Gangwei Jiang Xiaoyun Feng James Y. Zhang JUN ZHOU
研究问题:如何在隐私和内存限制下,对连续时间事件序列进行持续监控以学习流事件序列。
动机:在现实世界的应用中,事件数据通常以流媒体的形式出现,其模式分布可能会随时间推移而变化。
方法:采用持续学习(CL)的方法,通过将基础TPP与连续时间检索提示库相结合,提出了一个简单的但有效的框架PromptTPP。
效果:在两个真实的用户行为数据集上,PromptTPP始终设定了最先进的性能。
On-the-Fly Adapting Code Summarization on Trainable Cost-Effective Language Models
Yufan Cai Yun Lin Chenyan Liu Jinglian Wu Yifan Zhang Yiming Liu Yeyun Gong Jin Song Dong
研究问题:如何提高代码注释生成器的性能,特别是在特定项目代码和训练语料库不匹配的情况下。
动机:现有的深度学习模型在处理特定项目的代码时,可能会因为其他项目的代码样本产生矛盾和不一致,从而影响性能。
方法:提出一种名为Adacom的新方法,通过实时模型适应来改进注释生成器的性能。该方法可以检测模型在目标代码上可能的性能下降,并检索出有矛盾的训练样本进行重新训练,以强化有益的样本并消除有害的样本。
效果:在7个注释生成器和4个公共数据集上的大量实验表明,该方法可以显著提高注释生成的性能(BLEU4得分平均提高了14.9%,METEOR提高了12.2%,ROUGE-L提高了7.4%),并且对单个代码样本的适应是成本效益高的,可以作为实时解决方案接受,同时也可以很好地适应分布外代码样本。
Feature Likelihood Score: Evaluating the Generalization of Generative Models Using Samples
Marco Jiralerspong Joey Bose Ian Gemp Chongli Qin Yoram Bachrach Gauthier Gidel
研究问题:当前深度学习模型的评估方法存在不足,如标准似然度指标不适用于高维复杂数据,样本基础指标对过拟合不敏感等。
动机:为了解决这些问题,提出了一种新的特征似然得分(FLS)指标,用于全面评估生成样本的新颖性、逼真度和多样性。
方法:FLS是一种基于密度估计的参数化样本评分方法,通过三分类评估来提供全面的评估。
效果:实验结果表明,FLS能够准确识别出现过拟合问题的特定情况,并在各种图像数据集和模型类别上表现出与先前指标(如FID)相匹配的能力,同时提供了更全面的生成模型评估。
A Bayesian Approach To Analysing Training Data Attribution In Deep Learning
Elisa Nguyen Minjoon Seo Seong Joon Oh
研究问题:如何准确找出对模型预测有影响的训练数据?
动机:训练数据归属(TDA)技术在理论上有用,但在实践中难以应用到深度模型上,因为其对模型初始化的敏感性。
方法:从贝叶斯的角度看待TDA任务,将学习到的模型视为贝叶斯后验,并将TDA估计视为随机变量。
效果:发现单个训练样本的影响通常被模型初始化和SGD批量组成的噪声所掩盖。因此,只有在训练-测试数据对不受其他噪声因素影响的情况下,才能可靠地使用TDA来解释深度模型的预测。
Neural Harmonics: Bridging Spectral Embedding and Matrix Completion in Self-Supervised Learning
Marina Munkhoeva Ivan Oseledets
研究问题:本文旨在从拉普拉斯算子的角度理解现代自监督表示学习方法的工作机制,并将其中的归纳偏置与低秩矩阵补全问题相联系。
动机:由于其看似启发式的方法来学习尊重数据语义的表示,而无需任何明显的标签形式的监督,因此自监督方法受到了极大的关注。
方法:本文利用低秩矩阵补全的结果,对现代SSL方法的收敛性以及影响其下游性能的关键属性进行了理论分析。
效果:通过这种方式,我们能够更深入地理解自监督学习方法的工作机制,并为其提供理论支持。
UniTSFace: Unified Threshold Integrated Sample-to-Sample Loss for Face Recognition
Qiufu Li Xi Jia Jiancan Zhou Linlin Shen Jinming Duan
研究问题:现有的人脸识别模型无法充分探索大量人脸图像之间的跨样本关系,同时基于样本对的模型在训练时需要复杂的配对过程。
动机:为了解决上述问题,本文提出了一种统一的阈值集成的基于样本对的损失函数(USS损失),该函数具有明确的区分正负样本对的统一阈值。
方法:受USS损失的启发,我们还推导了基于样本对的softmax和BCE损失,并讨论了它们之间的关系。我们在多个基准数据集上进行了广泛的评估,包括MFR、IJB-C、LFW、CFP-FP、AgeDB和MegaFace,结果表明提出的USS损失非常高效,可以与基于样本类的loss无缝结合。
效果:通过使用嵌入的损失(USS和基于样本类的Softmax损失),我们克服了以前方法的缺点,训练出的人脸模型UniTSFace表现出色,超过了最先进的方法,如CosFace、ArcFace、VPL、AnchorFace和UNPG。我们的代码可以在https://github.com/CVI-SZU/UniTSFace获取。
Improving Self-supervised Molecular Representation Learning using Persistent Homology
Yuankai Luo Lei Shi Veronika Thost
研究问题:本文旨在研究自监督学习在分子表示学习中的应用,特别是在处理复杂的分子图和大量未标记数据时。
动机:由于分子图的复杂性、大量未标记的数据以及实验获取标签的高成本,使得获取训练数据集通常很小,因此自监督学习在分子表示学习中具有巨大潜力。
方法:本文采用持续同调作为数学工具来模拟跨越多个尺度的数据拓扑特征,并将其应用于自监督学习。我们设计了一个自动编码器和一个对比损失函数,以提升表示空间的性能。
效果:实验结果表明,通过持续同调进行自监督学习后,所获得的分子表示比基线方法在不同探测任务上的表现更好,预测能力更强。此外,我们的方法和损失函数可以显著提高小数据集上的模型性能,这在实际场景中非常常见。
Mitigating the Effect of Incidental Correlations on Part-based Learning
Gaurav Bhatt Deepayan Das Leonid Sigal Vineeth N. Balasubramanian
研究问题:当前部分学习者在处理特定背景或特定排列方式下出现的对象时,由于观察有限,难以应对偶发的相关关系,这可能对学到的部分表示的泛化和可解释性产生不利影响。
动机:本研究主张通过两种创新的正则化方法,使基于部分的表示更具解释性和更好的泛化能力。
方法:首先,通过独特的混合-of-parts公式分离前景和背景信息的生成过程,使用弱监督损失对部分施加结构约束,确保混合-of-parts对前景和背景进行软、对象无关的掩蔽。其次,采用蒸馏损失的形式,确保学到的部分不受偶发背景相关性的影响。此外,还引入稀疏和正交约束以促进高质量的部分表示的学习。
效果:通过减少偶发背景相关性对学习到的部分的影响,本研究在MiniImagenet、TieredImageNet和FC100等基准数据集上的少次学习任务上表现出了最先进的性能。同时,即使在ImageNet-9数据集的背景和常见数据损坏的情况下,也证明了该方法获得的部分表示比现有技术具有更好的泛化能力。
PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning
Hojoon Lee Hanseul Cho Hyunseung Kim Daehoon Gwak Joonkee Kim Jaegul Choo Se-Young Yun Chulhee Yun
研究问题:在强化学习中,如何提高样本效率,特别是在数据获取成本高且风险大的情况下。
动机:虽然理论上说,离线策略强化学习算法可以通过允许每次环境交互进行多次更新来提高样本效率,但这些多次更新往往会使模型过度拟合早期的交互,即所谓的塑性损失。
方法:通过将塑性分为输入塑性和标签塑性两个方面,研究了这种现象的根本原因。在CIFAR-10数据集上的合成实验表明,找到更平滑的损失景观最小值可以提高输入塑性,而优化的梯度传播可以改善标签塑性。基于这些发现,提出了**PLASTIC**算法,该算法和谐地结合了解决这两个问题的技术。
效果:通过对Atari-100k和Deepmind控制套件等基准测试,PLASTIC在最小的架构修改下实现了竞争的性能。这一结果强调了保持模型塑性以提高强化学习中样本效率的重要性。代码可在https://github.com/dojeon-ai/plastic获取。
Risk-Averse Active Sensing for Timely Outcome Prediction under Cost Pressure
Yuchao Qin Mihaela van der Schaar Changhee Lee
研究问题:如何在医疗健康监测中,以高效的方式获取病人的共变量信息,以实现早期发现和干预不良事件。
动机:在对病人健康状况进行长期跟踪的过程中,由于筛查和实验室测试的成本高昂,因此需要一种有效且经济的方式来获取病人的共变量信息。
方法:本文提出了一种新的风险规避型主动感知策略RAS,该策略将决策问题分解为何时进行采集和进行何种测量两个子问题。同时,引入了一种新的风险规避训练策略,重点关注高风险病人这一被忽视的群体。
效果:实验结果显示,该方法在合成数据和真实世界数据集上都优于基线主动感知方法。案例研究进一步证明了策略分解的重要性和风险规避型感知策略的必要性。
Analyzing the Sample Complexity of Self-Supervised Image Reconstruction Methods
Tobit Klug Dogukan Atik Reinhard Heckel
研究问题:本文旨在探讨自我监督训练在样本复杂度方面的代价,以及其与有监督训练之间的性能差距。
动机:虽然有监督训练在许多图像重建任务上取得了最先进的性能,但收集干净的图像和噪声测量对的训练对是困难的。自我监督方法允许只基于噪声测量进行训练,无需干净的图像。
方法:本文研究了一类能够计算有监督损失梯度的无偏估计的自我监督方法(包括noise2noise方法)的成本。我们分析表明,使用这种自我监督训练的模型与用有监督方式训练的同一模型一样好,但需要比有监督训练更多的示例。
效果:通过实验研究了自我监督去噪和加速MRI,并从所需额外样本数量的角度描述了自我监督训练的成本。我们发现,随着训练样本的增加,自我监督和有监督训练之间的性能差距会逐渐缩小,这与我们的理论预测相符。
Cross-Domain Policy Adaptation via Value-Guided Data Filtering
Kang Xu Chenjia Bai Xiaoteng Ma Dong Wang Bin Zhao Zhen Wang Xuelong Li Wei Li
研究问题:在强化学习中,如何在不同的领域间推广政策,特别是在动态不匹配的情况下,是一个重大挑战。
动机:例如,机器人在模拟器中学习策略,但在真实世界中部署时,环境的动态性可能会有所不同。考虑到源领域和目标领域之间的动态不匹配,我们考虑在线动态适应问题,在这种情况下,代理可以访问足够的源领域数据,而与目标领域的在线交互是有限的。
方法:我们提出了一种新的方法,即值引导的数据过滤(VGDF)算法,通过一种新的对跨领域价值一致性的见解,从值差异的角度来解决这个问题。具体来说,我们根据两个领域配对的价值目标的接近程度,有选择地分享源领域的转换。
效果:我们在各种具有运动学和形态变化的环境中的实验结果表明,我们的方法比现有方法取得了更好的性能。
Interpreting Unsupervised Anomaly Detection in Security via Rule Extraction
Ruoyu Li Qing Li Yu Zhang Dan Zhao Yong Jiang Yong Yang
研究问题:如何对黑箱无监督异常检测模型进行全局解释。
动机:由于恶意数据非常罕见,许多安全应用需要无监督的异常检测,并且只有未标记的正常数据可用于训练。然而,由于缺乏可解释性,安全操作员对信任黑箱模型的高风险表示担忧。
方法:本文提出了一种后处理的方法,通过规则提取来全局解释黑箱无监督异常检测模型。首先,我们提出了分布分解规则的概念,将正常数据的复杂分布分解为多个组合分布。为了找到这样的规则,我们设计了一个包含模型预测在内的分裂标准的无监督内部聚类树。然后,我们提出了组合边界探索(CBE)算法,以获取估计原始模型在每个组合分布上的决策边界的边界推理规则。通过将这些两种类型的规则合并为一个规则集,我们可以以人类可理解的方式呈现无监督黑箱模型的推理过程,并同时构建一个用于在线部署的替代规则基模型。
效果:我们在各种真实数据集上对四种不同的无监督异常检测模型进行了全面的解释实验。评估表明,我们的方法在保真度、正确性和鲁棒性等多样化指标上优于现有方法。
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching
Duy Minh Ho Nguyen Hoang Nguyen Nghiem Tuong Diep Tan Ngoc Pham Tri Cao Binh T. Nguyen Paul Swoboda Nhat Ho Shadi Albarqouni Pengtao Xie Daniel Sonntag Mathias Niepert
研究问题:如何利用大规模医疗图像数据集训练出可以适应新任务的预训练模型,以解决医学影像数据的标注样本有限的问题。
动机:虽然在ImageNet和网络规模数据上预训练的网络以及视觉语言基础模型是主流方法,但由于自然图像和医学图像之间的显著领域偏移,它们在医学任务上的效果有限。
方法:介绍了LVM-Med,这是第一个在大规模医疗数据集上训练的深度网络家族。从55个公开可用的数据集中收集了大约130万张医疗图像,覆盖了许多器官和模态,如CT、MRI、X射线和超声波。在这个数据集上对几种最先进的自监督算法进行了基准测试,并提出了一种新的基于图匹配公式的自监督对比学习算法。
效果:在15个下游医疗任务上对提出的LVM-Med进行了全面评估,包括分割和分类以及对象检测,无论是在分布内还是分布外设置中。实验证明,LVM-Med在许多任务上都优于最先进的有监督、自监督和基础模型。对于像脑瘤分类或糖尿病视网膜病变分级等挑战性任务,LVM-Med在使用仅一个ResNet-50的情况下,比之前在10亿个masks上训练的视觉语言模型提高了6-7%。
Hyperbolic Space with Hierarchical Margin Boosts Fine-Grained Learning from Coarse Labels
ShuLin Xu Yifan Sun Faen Zhang Anqi Xu Xiu-Shen Wei Yi Yang
研究问题:如何从粗糙标签中学习细粒度嵌入,特别是在少量精细识别任务中。
动机:由于缺乏详细的区别,从粗糙标签中学习细粒度嵌入是一项具有挑战性的任务,尤其是在少量精细识别任务中。
方法:提出一种将视觉嵌入到双曲空间并使用分层余弦间隔增强其判别能力的新方法。具体来说,双曲空间提供了捕获层次关系和增加表达能力的优势,有利于精细对象建模。
效果:在五个基准数据集上进行的大量实验表明,该方法的有效性超过了竞争方法,取得了最先进的结果。
Generalized Information-theoretic Multi-view Clustering
Weitian Huang Sirui Yang Hongmin Cai
研究问题:本文旨在从信息理论的角度重新定义多视图聚类问题,并提出一个通用的理论模型。
动机:现有的多视图无监督学习方法往往依赖于样本之间的语义一致性的严格假设。
方法:通过近似高维互信息来获取多视图变分下界,并利用KL散度推导样本分配。最终,基于信息的方法利用深度神经网络和随机梯度变分贝叶斯实现表示学习和聚类的同时进行。
效果:在各种类型的合成和真实数据集上的广泛实验表明,该方法比最先进的算法表现出更稳定和优越的聚类性能。
Can You Rely on Your Model Evaluation? Improving Model Evaluation with Synthetic Test Data
Boris van Breugel Nabeel Seedat Fergus Imrie Mihaela van der Schaar
研究问题:如何准确评估机器学习模型在多样化和代表性不足的子群体上的性能,以确保其在现实世界应用中的公平性和可靠性。
动机:由于缺乏测试数据(特别是对于小的子群体)以及模型部署环境中可能出现的分布偏移,准确评估模型性能变得具有挑战性。
方法:提出了3S测试,这是一种深度生成模型框架,通过为小的子群体生成合成测试集并模拟分布偏移来促进模型评估。
效果:实验表明,3S测试在估计少数群体模型性能和可能的分布偏移下优于传统的仅使用真实测试数据的方法。此外,3S还提供了其性能估计的区间,与现有方法相比,更好地覆盖了真实情况。
Disentangling Cognitive Diagnosis with Limited Exercise Labels
Xiangzhi Chen Le Wu Fei Liu Lei Chen Kun Zhang Richang Hong Meng Wang
研究问题:如何在只有少量练习题标签的情况下进行认知诊断。
动机:由于标注练习题的成本巨大,因此更实际的情况是只有少量练习题被标注了概念。如何在这种情况下进行认知诊断是一个未充分探索的问题。
方法:提出了基于解耦的认知诊断(DCD)模型,利用学生的回答记录来模拟学生的熟练程度、练习题的困难度和练习题标签的分布。引入了基于组的解耦和有限标签对齐两个新模块,以分离与概念相关的因素并将其与实际的有限标签对齐。
效果:在广泛使用的基准测试上进行的大量实验表明,所提出的模型具有优越性。
Switching Temporary Teachers for Semi-Supervised Semantic Segmentation
Jaemin Na Jung-Woo Ha Hyung Jin Chang Dongyoon Han Wonjun Hwang
研究问题:现有的教师-学生框架在半监督语义分割中主要使用指数移动平均(EMA)来更新单个教师的权重,但这种方法存在教师和学生的权重耦合问题,可能导致性能瓶颈。
动机:为了解决教师-学生框架中的权重耦合问题,本文提出了Dual Teacher方法,该方法采用两个临时教师来减轻学生的问题。
方法:Dual Teacher通过让两个临时教师轮流生成伪标签来训练学生模型,并保持每个时期学生模型的独特特性,从而防止教师和学生过于接近。
效果:实验结果表明,Dual Teacher在PASCAL VOC、Cityscapes和ADE20K基准测试上取得了有竞争力的性能,并且训练时间明显短于最先进的方法。此外,该方法与CNN和Transformer模型都兼容。
Fair Canonical Correlation Analysis
Zhuoping Zhou Davoud Ataee Tarzanagh Bojian Hou Boning Tong Jia Xu Yanbo Feng Qi Long Li Shen
研究问题:本文旨在调查在典型关联分析(CCA)中是否存在公平性和偏见,这是一种广泛用于检查两组变量之间关系的统计技术。
动机:由于CCA模型可能会对受保护的属性产生不公平的结果,因此需要一种可以最小化与受保护属性相关的相关性差异误差的方法来减轻不公平性。
方法:我们提出了一个框架,通过使CCA模型从所有数据点学习全局投影矩阵,同时确保这些矩阵产生的相关性水平与组特定的投影矩阵相当,从而减轻不公平性。
效果:我们在合成和真实世界的数据集上进行实验评估,结果显示我们的方法在不牺牲CCA模型准确性的情况下有效地减少了不公平性。这些发现强调了在将CCA应用于现实世界问题时考虑公平性的重要性。
Towards Test-Time Refusals via Concept Negation
Peiran Dong Song Guo Junxiao Wang Bingjie WANG Jiewei Zhang Ziming Liu
研究问题:本文旨在解决生成模型无限制的输出问题,特别是在处理广泛应用的扩散模型时,如何保持合成内容的伦理和版权完整性。
动机:虽然概念否定作为一种有前景的方法已经在定义和管理模型输出空间方面做出了有价值的贡献,但它仍然受到显著的限制,例如无法处理现实中概念的相互关联性。
方法:本文提出了一个名为$ProtoRe$的新框架,通过测试时间的负概念识别和特征空间的净化来提高概念否定的灵活性。具体来说,$ProtoRe$通过引入CLIP的语言对比知识来识别负概念的原型,然后使用该原型作为提示从输出中提取负特征,并通过检索负特征进一步精炼注意力图。
效果:在多个基准测试上的评估显示,$ProtoRe$在各种设置下都优于最先进的方法,无论是在净化效果上还是在生成图像的真实性上都表现出色。
FiGURe: Simple and Efficient Unsupervised Node Representations with Filter Augmentations
Chanakya Ekbote Ajinkya Deshpande Arun Iyer SUNDARARAJAN SELLAMANICKAM Ramakrishna B Bairi
研究问题:现有的无监督节点表示学习方法在下游任务上表现良好,但这些方法依赖于模拟低通滤波器的增强技术,限制了其在需要不同特征值部分的任务上的性能。
动机:本文提出了一种基于滤波器的增强方法,以捕获特征值的不同部分,从而提高无监督节点表示学习的效果。
方法:通过对比学习的方法学习无监督节点表示,并采用基于滤波器的增强方法来捕获不同的特征值部分。同时,通过简单的随机傅里叶特征投影将高维表示降低到低维,以减少计算量。
效果:实验结果表明,该方法在各种数据集上均取得了显著的改进,平均增益达到4.4%,优于现有的无监督模型。
CS-Isolate: Extracting Hard Confident Examples by Content and Style Isolation
Yexiong Lin Yu Yao Xiaolong Shi Mingming Gong Xu Shen Dong Xu Tongliang Liu
研究问题:大规模图像数据集中的标签噪声普遍存在,如何通过利用半监督学习选择置信度较高的样本来减轻标签噪声的副作用。
动机:现有的方法主要关注提取接近决策边界的困难置信度示例,这种能力对学习分类器的泛化能力有显著影响。
方法:本文发现一些困难示例接近决策边界的主要原因是风格因素与内容因素的纠缠。当只关注内容因素(如语义信息)而忽略风格因素时,困难示例变得更具判别性。然而,在只有噪声数据的情况下,内容因素无法直接观察,必须进行推断。
效果:为了解决在学习有噪声标签时推断用于分类的内容因素的问题,我们的目标是确保同一底层清洁类中的所有示例的内容因素保持不变,即使他们的风格信息发生变化。通过使用不同的数据增强技术改变风格,同时基于一些置信度较高的示例对内容因素进行正则化,训练现有方法与我们推断出的内容因素,证明了CS-Isolate在基准数据集上学习困难示例的有效性。
RDumb: A simple approach that questions our progress in continual test-time adaptation
Ori Press Steffen Schneider Matthias Kuemmerer Matthias Bethge
研究问题:测试时适应(TTA)允许在部署时更新预训练模型以适应不断变化的数据分布,但现有的方法是否有效?
动机:早期的工作只针对单个固定的分布变化进行测试,近期的工作提出了并应用了长期时间尺度上的连续适应方法。为了检查该领域的进展,我们提出了持续变化的破坏(CCC)基准来测量TTA技术的渐进性能。
方法:我们评估了所有现有的TTA方法,发现除了一种之外的所有最先进的方法最终都会崩溃,表现不如非适应模型。此外,我们还引入了一个名为“RDumb”的简单基线,该模型定期将自身重置为预训练状态。
效果:我们的研究结果表明,以前的TTA方法既无法有效地适应以避免崩溃,也无法超越简单的重置策略。
Toward Understanding Generative Data Augmentation
Chenyu Zheng Guoqiang Wu Chongxuan Li
研究问题:本文旨在理论上探讨生成性数据增强对学习任务的影响,特别是在非独立同分布(non-i.i.d.)设置中。
动机:尽管生成性数据增强在各种学习任务中可以提高分类性能,但在非独立同分布的设置下,其理论效果尚未得到充分研究。
方法:本文建立了一个一般的稳定性边界,以研究生成性数据增强的效果。我们进一步将学习设置具体化为高斯混合模型和生成对抗网络。
效果:理论结果表明,当训练集规模较小时,即使生成性数据增强不能提高学习速度,也可以在常数级别上改善学习保证,这对于防止过拟合具有重要意义。模拟结果和实证结果均支持我们的理论结论。
Deep Insights into Noisy Pseudo Labeling on Graph Data
Botao WANG Jia Li Yang Liu Jiashun Cheng Yu Rong Wenjia Wang Fugee Tsung
研究问题:本文旨在深入理解在图学习模型中伪标签(PL)策略的影响。
动机:虽然已有研究表明伪标签可以提高图学习模型的性能,但不正确标签可能对图训练过程产生致命影响,特别是在噪声可以传播的图数据上。然而,现有文献中对此错误鲜有理论分析。
方法:通过展示错误受PL阈值的置信度和多视图预测的一致性限制,我们首次对PL策略进行了错误分析。然后,我们从理论上说明了PL对收敛性的影响。基于此分析,我们提出了一种谨慎的伪标签方法,即以最高置信度和多视图一致性对样本进行伪标签。
效果:大量实验证明,所提出的策略改进了图学习过程,并在链接预测和节点分类任务上优于其他PL策略。
SLaM: Student-Label Mixing for Distillation with Unlabeled Examples
Vasilis Kontonis Fotis Iliopoulos Khoa Trinh Cenk Baykal Gaurav Menghani Erik Vee
研究问题:如何利用大量无标签数据进行知识蒸馏,生成紧凑、轻量级的学生模型。
动机:在有大量未标注数据但缺乏标记数据的情况下,教师模型的伪标签往往带有噪声,影响学生模型的性能。
方法:提出一种名为“学生-标签混合”(SLaM)的原则性方法,通过改进伪标签的质量来提高学生模型的性能。
效果:实验证明,SLaM在多个标准基准测试中的表现优于现有方法,且具有理论保证。
D4Explainer: In-distribution Explanations of Graph Neural Network via Discrete Denoising Diffusion
Jialin Chen Shirley Wu Abhijit Gupta Zhitao Ying
研究问题:本文旨在解决图神经网络(GNN)解释性的问题,特别是在保证模型审计和确保可信赖的图学习方面。
动机:由于GNN对分布外数据敏感,因此需要关注分布内属性,以确保生成的解释是可靠的。然而,现有的解释方法往往将生成的解释限制在原始图的结构中,从而忽视了分布内属性的重要性,导致解释缺乏可靠性。
方法:为此,我们提出了D4Explainer,这是一种新的GNN解释方法,可以为反事实和模型级别的解释场景提供分布内的解释。该方法将生成图分布学习纳入优化目标,实现两个目标:1)为给定实例生成符合分布内属性的多样化反事实图;2)识别对特定类别预测贡献最大的图形模式,作为模型级别的解释。
效果:我们在合成和真实世界的数据集上进行的实证评估表明,D4Explainer在解释准确性、忠实度、多样性和鲁棒性方面都取得了最先进的性能。
Knowledge Diffusion for Distillation
Tao Huang Yuan Zhang Mingkai Zheng Shan You Fei Wang Chen Qian Chang Xu
研究问题:知识蒸馏中教师和学生表示的差距是一个新兴话题。
动机:当前的方法通常通过复杂的训练方案、损失函数和特征对齐来减少差距并提高性能,但这些方法都是任务特定和特征特定的。
方法:本文提出了一种新的知识蒸馏方法DiffKD,使用扩散模型显式地对特征进行去噪和匹配。该方法基于观察,即由于学生模型的容量较小,学生特征通常比教师特征包含更多的噪声。为了解决这个问题,我们提出使用由教师特征训练的扩散模型对学生特征进行去噪。
效果:大量的实验表明,DiffKD在各种类型的特征上都有效,并在图像分类、目标检测和语义分割任务上取得了一致的最先进的性能。
Towards a Unified Analysis of Kernel-based Methods Under Covariate Shift
Xingdong Feng Xin HE Caixing Wang Chao Wang Jingnan Zhang
研究问题:本研究旨在解决在实践中广泛存在的协变量偏移问题,即源数据和目标数据的输入分布存在显著差异。
动机:尽管协变量偏移在各种学习问题上具有实际重要性,但大多数现有方法仅关注某些特定的学习任务,并未从理论和数值上得到充分验证。
方法:我们提出了一种在再生核希尔伯特空间(RKHS)中对一般非参数方法进行统一分析的方法,以解决协变量偏移问题。
效果:我们的理论结果适用于属于丰富损失函数家族的一般损失,其中包括许多常用方法作为特例,如均值回归、分位数回归、基于似然的分类和基于边界的分类。通过对两类协变量偏移问题的集中研究,我们为一般损失函数建立了锐利的收敛速度,从而提供了一种统一的理论分析,这与文献中使用平方损失的最佳结果相一致。大量的数值研究证实了我们的理论发现,并进一步说明了我们提出的方法的有效性。
TRIAGE: Characterizing and auditing training data for improved regression
Nabeel Seedat Jonathan Crabbé Zhaozhi Qian Mihaela van der Schaar
研究问题:当前的数据表征方法主要关注分类设置,而对回归设置的研究相对较少。
动机:为了解决这一问题,我们提出了一种新的数据表征框架TRIAGE,专门针对回归任务设计,并与广泛的回归器兼容。
方法:TRIAGE利用一致性预测分布提供一种与模型无关的评分方法——TRIAGE评分。我们将该评分用于分析单个样本的训练动态,并将样本分为模型低估、高估或准确估计三类。
效果:实验表明,TRIAGE的数据表征是一致且有实际效用的,可以在多个回归设置中通过数据塑造/过滤来提高性能。此外,除了样本级别之外,TRIAGE还展示了在数据集选择和特征获取方面采用新方法的可能性。总的来说,TRIAGE突显了数据表征在现实世界回归应用中的价值。
Adversarial Self-Training Improves Robustness and Generalization for Gradual Domain Adaptation
Lianghe Shi Weiwei Liu
研究问题:尽管渐进领域适应(GDA)在许多上下文中得到了理论和实证研究,但其对抗鲁棒性尚未得到探索。
动机:在安全关键场景中,GDA模型的对抗鲁棒性至关重要。
方法:采用有效的渐进自我训练方法,将普通的自我训练替换为对抗自我训练(AST)。AST首先对未标记的数据进行标签预测,然后在伪标记分布上进行对抗性训练。
效果:研究发现,渐进AST不仅提高了目标领域的对抗准确性,也提高了清洁准确性。这是因为当伪标签包含一部分错误标签时,对抗训练(AT)比标准训练表现得更好。此外,我们还展示了渐进AST在多分类设置中的泛化误差界限,并使用最优子集和问题的值将真实分布的标准误差和伪标记分布的对抗误差联系起来。结果表明,在有错误伪标签的数据上,AT可能获得比标准训练更紧的界限。
Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization
Yuxin Guo Shijie Ma Hu Su Zhiqing Wang Yuhao Zhao Wei Zou Siyang Sun Yun Zheng
研究问题:本文旨在解决音视频源定位(AVSL)问题,即在给定音频片段的情况下,确定视频帧中发出声音的对象的位置。
动机:现有的方法主要依赖于自我监督的对比学习进行音视频对应关系的训练,但在没有边界框标注的情况下,它们在精确定位上存在困难,尤其是对于小对象的定位,并且会出现模糊的边界和误报。此外,简单的半监督学习方法在有效利用大量未标记的音视频对方面表现不佳。
方法:本文提出了一种新的半监督学习框架,名为双均值教师(DMT),包括两个教师-学生结构来避免确认偏误问题。具体来说,使用两个在有限标记数据上预训练的教师来过滤掉噪声样本,通过预测之间的一致性生成高质量的伪标签。这种无偏框架的最佳利用标记和非标记数据的能力使DMT能够大幅超越当前最先进的方法。
效果:实验结果表明,DMT在Flickr-SoundNet和VGG-Sound Source上的CIoU分别为90.4%和48.8%,相比于现有方法分别提高了8.9%和9.6%。我们的代码已经在GitHub上公开发布。
V-InFoR: A Robust Graph Neural Networks Explainer for Structurally Corrupted Graphs
Senzhang Wang Jun Yin Chaozhuo Li Xing Xie Jianxin Wang
研究问题:现有的图神经网络解释器在面对结构受损的图(如噪声或对抗性边)时不够稳健。
动机:现有的GNN解释器主要基于原始图特征或学习到的隐藏表示进行解释,这两者都容易被破坏。此外,图的损坏在结构属性(如图的大小或连通性)方面是不规则的,这使得之前GNN解释器的严格约束无法实施。
方法:我们提出了一种名为V-InfoR的鲁棒GNN解释器。具体来说,我们提出了一种鲁棒的图表示提取器,它采用变分推理的思想来推断图表示的隐藏分布。我们不是直接使用每个单独图的损坏原始特征或表示,而是从推断的分布中采样图表示,用于下游的解释生成器,这可以有效地消除小的损坏。我们将解释探索形式化为图信息瓶颈(GIB)优化问题。作为一种更通用的方法,我们的GIB方法不需要任何严格的结构约束,可以自适应地捕获严重损坏图中的规律性和非规律性以进行解释。
效果:我们在合成和真实世界的数据集上进行了广泛的评估,结果表明V-InfoR显著提高了GNN对结构受损图的解释性能。代码和数据集可在https://anonymous.4open.science/r/V-InfoR-EF88获取。
DrugCLIP: Contrasive Protein-Molecule Representation Learning for Virtual Screening
Bowen Gao Bo Qiang Haichuan Tan Yinjun Jia Minsi Ren Minsi Lu Jingjing Liu Wei-Ying Ma Yanyan Lan
研究问题:如何有效地从大量化合物数据库中识别出能够与特定蛋白质口袋结合的潜在药物,以辅助药物发现。
动机:传统的对接方法在实际应用中耗时且搜索库有限,而最新的有监督学习方法由于依赖有限的可靠结合亲和力标签数据,尚未超越传统对接方法。
方法:本文提出了一种新的对比学习框架DrugCLIP,将虚拟筛选重新定义为密集检索任务,并使用对比学习对大量成对的无明确结合亲和力分数的蛋白质口袋和分子表示进行对齐。同时引入了受生物知识启发的数据增强策略来学习更好的蛋白质-分子表示。
效果:实验表明,DrugCLIP在各种虚拟筛选基准测试上显著优于传统对接方法和有监督学习方法,尤其是在零射设置下,计算时间大大减少。
Learning Sample Difficulty from Pre-trained Models for Reliable Prediction
Peng Cui Dan Zhang Zhijie Deng Yinpeng Dong Jun Zhu
研究问题:如何利用大规模预训练模型提高下游模型的预测可靠性,并解决神经网络的过度自信预测问题。
动机:现代神经网络存在过度自信预测的问题,而大规模预训练模型可以有效解决这个问题。
方法:通过特征空间的高斯建模和相对马氏距离计算,使用大规模预训练模型来测量每个训练样本的难度,然后通过样本难度感知的熵正则化来指导下游模型的训练。
效果:该方法在多个具有挑战性的基准测试中(如ImageNet1k),准确率和不确定性校准都得到了显著提升,同时优于竞争性基线,实现了可靠的预测。
Revisiting Logistic-softmax Likelihood in Bayesian Meta-Learning for Few-Shot Classification
Tianjun Ke Haoqun Cao Zenan Ling Feng Zhou
研究问题:元学习在少次分类任务中已经显示出了有希望的结果,但如何更好地利用先验知识来解决新的问题仍然是一个挑战。
动机:贝叶斯方法在少次分类任务中能有效的表示不确定性,这对于高风险领域至关重要。然而,逻辑斯谛-softmax理论性质不明确,且其内在的不确定性会导致性能不佳。
方法:我们重新设计了逻辑斯谛-softmax似然函数,通过温度参数控制先验信心水平。此外,我们还证明了softmax可以看作是逻辑斯谛-softmax的一个特例,并且逻辑斯谛-softmax比softmax能产生更大的数据分布族。
效果:我们的方法产生了良好校准的不确定性估计,并在标准基准数据集上取得了相当或更好的结果。
Joint Training of Deep Ensembles Fails Due to Learner Collusion
Alan Jeffares Tennison Liu Jonathan Crabbé Mihaela van der Schaar
研究问题:尽管深度学习模型的集成已被证明是提高单一模型性能的强大方法,但大多数先前的研究都是独立训练单个模型,然后在事后进行集成。
动机:作者发现直接最小化集成损失在实践中很少应用,因为联合优化会导致退化行为。
方法:作者将集成目标分解为基学习器的力量和它们之间的多样性,通过在独立训练和联合优化之间平滑插值来全面展示这一效应对一系列标准机器学习任务和架构的实际影响。
效果:实验结果表明,联合优化会导致基学习器串通起来人为地夸大其表面多样性,这种伪多样性无法泛化到训练数据之外,导致更大的泛化差距。
Learn to Categorize or Categorize to Learn? Self-Coding for Generalized Category Discovery
Sarah Rastegar Hazel Doughty Cees G. M. Snoek
研究问题:如何定义和发现测试时间的新类别?
动机:传统的监督识别模型受限于预定义的类别集,无法有效发现新的类别。
方法:通过优化视角将类别概念化,提出一种新颖、高效且自我监督的方法,在测试时间发现先前未知的类别。
效果:该方法能有效处理精细类别,并在实验评估中表现出色。
Learning Invariant Representations of Graph Neural Networks via Cluster Generalization
Donglin Xia Xiao Wang Nian Liu Chuan Shi
研究问题:如何使图神经网络(GNNs)在面对测试图结构与训练图结构不同的情况,即结构偏移时,仍能保持较好的性能。
动机:现有的GNNs在面对结构偏移时,其性能会显著下降,表明模型可能对特定的结构模式存在偏见。
方法:提出集群信息转移(CIT)机制,通过结合不同的集群信息和节点,同时保留节点的集群独立信息,学习不变的表示,以提高GNNs对各种未知测试图的泛化能力。
效果:实验结果表明,CIT机制能有效提高GNNs的性能,且易于集成到现有的GNNs中。
SoTTA: Robust Test-Time Adaptation on Noisy Data Streams
Taesik Gong Yewon Kim Taeckyung Lee Sorn Chottananurak Sung-Ju Lee
研究问题:测试时间适应(TTA)旨在使用未标记的测试数据流解决训练和测试数据之间的分布偏移,但大多数TTA方法假设测试流是良性的,而实际中测试样本可能非常多样化。
动机:例如在自动驾驶中可能出现未见过的对象或噪音,这会对现有的TTA算法构成威胁。由于现有的TTA算法会盲目适应传入的样本,因此会受到这些噪声样本的影响。
方法:我们提出了筛选式测试时间适应(SoTTA),这是一种对噪声样本具有鲁棒性的新的TTA算法。SoTTA的关键之处在于两个方面:(i)通过高置信度均匀类别采样实现输入鲁棒性,有效过滤掉噪声样本的影响;(ii)通过熵锐度最小化提高模型参数对来自噪声样本的大梯度的鲁棒性。
效果:我们在各种噪声场景的标准TTA基准上进行评估,结果显示,在存在噪声样本的情况下,我们的方法优于最先进的TTA方法,并且在没有噪声样本的情况下,我们的方法达到了与那些方法相当的准确性。
3D Indoor Instance Segmentation in an Open-World
Mohamed El Amine Boudjoghra Salwa K. Al Khatib Jean Lahoud Hisham Cholakkal Rao Muhammad Anwer Salman Khan Fahad Khan
研究问题:现有的3D实例分割方法通常假设所有要分割的语义类别在训练期间都可用,仅对看到过的类别进行分割。
动机:这种封闭世界假设具有限制性,我们首次探索开放世界中的3D室内实例分割,允许模型区分一组已知类别以及将未知对象识别为未知,并在相应的类别标签可用时逐步学习未知对象的语义类别。
方法:我们引入了一种开放世界的3D室内实例分割方法,其中使用自动标记方案在训练期间生成伪标签并引发分离以区分已知和未知类别标签。我们还通过根据对象性分数分布调整未知类概率来提高推理时的伪标签质量。此外,我们还引入了经过精心策划的开放世界分割,利用基于固有对象分布的现实场景、基于区域的室内场景探索和开放世界类别的随机性方面。
效果:大量实验表明,所提出的方法有效,取得了有前景的开放世界3D实例分割性能。代码和分割可在以下网址获取:https://github.com/aminebdj/3D-OWIS。
NEO-KD: Knowledge-Distillation-Based Adversarial Training for Robust Multi-Exit Neural Networks
Seokil Ham Jungwuk Park Dong-Jun Han Jaekyun Moon
研究问题:多出口神经网络在有效推理方面具有潜力,但对抗性攻击仍是一个挑战。
动机:多出口网络中,由于不同子模型之间的高度依赖性,针对特定出口的对抗性示例不仅会降低目标出口的性能,还会同时降低所有其他出口的性能,使多出口网络容易受到简单对抗性攻击的影响。
方法:本文提出了一种基于知识蒸馏的对抗性训练策略NEO-KD,主要通过邻域知识蒸馏引导对抗性示例的输出趋向于干净数据的邻居出口的集成输出,以及采用出口特定的正交知识蒸馏来减少不同子模型之间的对抗性迁移能力。
效果:实验结果表明,与依赖于现有对抗性训练或多出口网络的知识蒸馏技术的基线相比,该方法在各种数据集/模型上实现了最佳的对抗性精度和计算预算的降低。
Intra-Modal Proxy Learning for Zero-Shot Visual Categorization with CLIP
Qi Qian Yuanhong Xu Juhua Hu
研究问题:如何通过文本代理直接学习视觉代理以实现零样本转移。
动机:当前的视觉语言预训练方法,如CLIP,虽然在视觉分类任务上表现出色,但文本和视觉空间的模态差距可能导致性能不佳。
方法:提出一种新策略,即直接使用文本代理来学习视觉代理,并进一步优化由文本代理获得的伪标签,以促进视觉模态内的代理学习(InMaP)。
效果:实验证明,该方法在多个下游任务上有效且高效。具体来说,InMaP可以在单个GPU上一分钟内获得视觉代理,并在ImageNet上将ViT-L/14@336的零样本准确率从77.02%提高到80.21%。
Effective Targeted Attacks for Adversarial Self-Supervised Learning
Minseon Kim Hyeonjeong Ha Sooel Son Sung Ju Hwang
研究问题:如何通过无监督对抗训练(AT)实现模型的鲁棒性,特别是在没有标签信息的情况下。
动机:目前的无监督对抗训练主要关注在自我监督学习框架中实施,但仅最大化自我监督训练损失并生成非目标对抗样本,往往不能有效提高模型的鲁棒性。
方法:提出一种新的针对目标对抗攻击的积极挖掘方法,为对抗自我监督框架生成有效的对抗样本。具体来说,根据熵和相似度选择最令人困惑但又相似的目标示例,然后对给定实例进行扰动。
效果:该方法在非对比自我监督框架上显示出显著的鲁棒性增强,并在对比自我监督框架上显示出较少但持续的鲁棒性改进。
Debiased and Denoised Entity Recognition from Distant Supervision
Haobo Wang Yiwen Dong Ruixuan Xiao Fei Huang Gang Chen Junbo Zhao
研究问题:如何减少远程监督在命名实体识别(NER)任务中由于无监督标签的噪声导致的性能下降。
动机:现有的远程监督方法存在两种主要偏见,一是远程标签中的噪声并非完全随机,而是具有高度结构性;二是自我训练框架会在样本选择和最终预测中引入固有的偏差。
方法:提出一种新的自我训练框架DesERT,该框架通过调整样本选择过程以适应其内在的分布性偏差结构,并通过去偏模块增强标记表示,从而提高伪标签的质量。
效果:实验结果表明,DesERT在五个标准基准数据集上平均F1分数提高了+2.22%,并在新的DSNER基准测试中表现出了有效性,其中额外的远程监督来自ChatGPT模型。
Emergent Communication for Rules Reasoning
Yuxuan Guo Yifan Hao Rui Zhang Enshuai Zhou Zidong Du Xishan Zhang Xinkai Song Yuanbo Wen Yongwei Zhao Xuehai Zhou Jiaming Guo Qi Yi Shaohui Peng Di Huang Ruizhi Chen Qi Guo Yunji Chen
研究问题:深度学习代理之间的新兴交流在语言学和人工智能方面具有启发性,但以往的尝试主要围绕感知导向的环境设置进行。
动机:受经典人类推理测试(即雷文的渐进矩阵)的启发,我们提出了推理游戏,这是一个认知导向的环境,鼓励代理进行高层次的规则推理和交流,而不是描述低层次的感知特征。
方法:我们提出了1)一个无偏数据集(即规则-雷文)作为基准,以避免过拟合;2)并提出了两阶段的课程代理训练方法,作为在推理游戏中更稳定收敛的基线,其中上下文和语义是双向漂移的。
效果:实验结果表明,在推理游戏中,出现了一种语义稳定且组合性的语言来解决推理问题。这种新兴的语言帮助代理将提取的规则应用于未见过的属性的泛化,以及在不同属性甚至任务之间的转移。
Hyperbolic Graph Neural Networks at Scale: A Meta Learning Approach
Nurendra Choudhary Nikhil Rao Chandan K. Reddy
研究问题:如何克服双曲神经网络在缺乏归纳偏置机制方面的研究进展缓慢,这对泛化到新任务和促进大规模数据集上的可扩展学习至关重要。
动机:目前的双曲神经网络缺乏对新任务的泛化能力和可扩展学习的归纳偏置机制,这限制了其在大规模数据集上的应用。
方法:本文提出了一种新的方法——超曲图元学习器(H-GRAM),该方法通过从节点的局部子图中学习可转移的信息,并将其转移到具有不相交节点、边和标签的新子图中,以实现在新任务上的快速学习。
效果:实验结果表明,H-GRAM在多个具有挑战性的少样本设置中有效地学习和转移信息,优于其他最先进的基线方法。此外,与标准的双曲神经网络不同,该方法能够扩展到大型图数据集,并在其欧几里得对应物上提高性能。
Adapting to Continuous Covariate Shift via Online Density Ratio Estimation
Yu-Jie Zhang Zhen-Yu Zhang Peng Zhao Masashi Sugiyama
研究问题:本文旨在解决现代机器学习中分布偏移的核心挑战,特别是连续协变量偏移的问题。
动机:在连续协变量偏移的情况下,测试数据会陆续出现,其分布可能会持续变化,而现有的方法无法有效应对。
方法:我们提出了一种在线密度比估计方法,可以恰当地复用历史信息,以适应测试数据的连续分布变化。
效果:通过理论分析和实验验证,我们的方法能够有效地降低预测风险,并在实证结果上也表现出良好的效果。
Towards Self-Interpretable Graph-Level Anomaly Detection
Yixin Liu Kaize Ding Qinghua Lu Fuyi Li Leo Yu Zhang Shirui Pan
研究问题:本文旨在解决图级别异常检测(GLAD)的问题,即识别出与集合中大多数图显著不同的图。
动机:当前的工作主要关注于评估图级别的异常性,但未能为预测提供有意义的解释,这在很大程度上限制了其可靠性和应用范围。
方法:本文提出了一种新的挑战性问题——可解释的GLAD,其中学习目标是预测每个图样本的异常性以及相应的解释,即导致预测的关键子图。为此,我们提出了一种自我解释的图异常检测模型(SIGNET)。
效果:通过在16个数据集上的大量实验,证明了SIGNET的异常检测能力和自我解释性。
How Re-sampling Helps for Long-Tail Learning?
Jiang-Xin Shi Tong Wei Yuke Xiang Yu-Feng Li
研究问题:近年来,由于其对极度不平衡的数据集的挑战,长尾学习受到了极大的关注。在这类数据集中,只有少数几个类别(被称为头部类别)有足够的训练样本,而其余的类别(被称为尾部类别)在训练数据中很少出现。
动机:尽管重新采样是一种广泛使用的方法来解决类不平衡问题,但最近的研究表明,在现代的长尾学习任务中,重新采样对性能的提升微乎其微。本论文旨在系统地调查这种现象。
方法:我们设计了两个同构的数据集进行实验,一个包含无关上下文,另一个不包含。我们还提出了一个新的上下文转移增强模块,通过从头部类别的图像中提取上下文库来生成尾部类别的多样化训练图像。
效果:实验证明,我们的新模块可以提升泛化能力,并优于其他方法,包括平衡重采样、解耦分类器再训练和数据增强方法。
Identifiable Contrastive Learning with Automatic Feature Importance Discovery
Qi Zhang Yifei Wang Yisen Wang
研究问题:现有的对比学习方法通过成对样本对比来学习数据表示,但学到的特征往往缺乏人类可解释性。
动机:理论上,这种方法缺乏特征的可识别性,不同的初始化可能导致完全不同的特征。
方法:本文提出了一种新的三因素对比学习方法(triCL),该方法涉及以$z_x^\top S z_{x'}$形式的三因素对比,其中$S=\text{diag}(s_1,\dots,s_k)$是一个可学习的对角矩阵,自动捕捉每个特征的重要性。
效果:实验表明,通过这种简单的扩展,triCL不仅可以获得消除随机性的可识别特征,还可以获得按照重要性矩阵$S$排序的更具解释性的特征。具有高重要性的特征具有良好的解释性,通过捕捉常见的类别特征,并在使用少量特征进行图像检索时获得了优越的性能。提出的triCL目标具有通用性,可以应用于不同的对比学习方法,如SimCLR和CLIP。
Learning Topology-Agnostic EEG Representations with Geometry-Aware Modeling
Ke Yi Yansen Wang Kan Ren Dongsheng Li
研究问题:如何利用大规模未标记的头皮脑电图(EEG)数据进行预训练,以提升下游任务的性能。
动机:由于未标记的数据丰富,开发类似的技术对于头皮脑电图(EEG)是合适的。同时,各种采样通道选择和内在的结构与空间信息为改进现有的预训练策略提供了挑战和机会。
方法:我们提出了一种将所有类型的通道选择映射到统一拓扑的方法,并在该统一拓扑上引入了多维位置编码、多级通道层次和多阶段预训练策略的预训练框架MMM,以获取与拓扑无关的表示。
效果:实验表明,我们的方法在情感识别基准数据集上比先前最先进的技术取得了显著的改进。
Ambient Diffusion: Learning Clean Distributions from Corrupted Data
Giannis Daras Kulin Shah Yuval Dagan Aravind Gollakota Alex Dimakis Adam Klivans
研究问题:如何仅使用高度损坏的样本学习未知分布。
动机:在科学应用中,获取未损坏的样本是不可能的或昂贵的。此外,我们的方法还可以训练不太可能记住任何单个训练样本的生成模型,因为它们从未观察到干净的训练数据。
方法:我们在扩散过程中引入额外的测量失真,并要求模型从进一步损坏的图像中预测原始损坏的图像。我们证明了我们的方法会导致模型学习完整的未损坏图像的条件期望,这是基于额外的测量失真的。
效果:我们在标准基准(CelebA、CIFAR-10和AFHQ)上训练模型,并证明即使所有训练样本有90%的像素丢失,我们也可以学习分布。我们还表明,我们可以在小损坏的数据集(如带有块损坏的MRI扫描)上微调基础模型,并在不记住训练集的情况下学习清洁分布。
Diversify Your Vision Datasets with Automatic Diffusion-based Augmentation
Lisa Dunlap Alyssa Umino Han Zhang Jiezhi Yang Joseph E. Gonzalez Trevor Darrell
研究问题:如何在训练数据有限的情况下,提高细粒度分类任务的泛化能力?
动机:由于训练数据的局限性,模型往往无法适应环境或地点的变化。因此,我们探索如何利用大规模预训练数据集的自然语言描述来生成有用的训练数据变体。
方法:我们提出了ALIA(自动语言引导图像增强)方法,该方法利用大型视觉和语言模型自动生成数据集领域的自然语言描述,并通过语言引导的图像编辑来增强训练数据。为了保持数据完整性,我们在原始数据集上训练的模型过滤掉了最小限度的图像编辑和那些破坏类别相关信息的编辑。
效果:实验结果表明,ALIA在细粒度分类任务上超越了传统的数据增强和文本到图像生成的数据,包括领域泛化和上下文偏差的情况。
Better with Less: A Data-Active Perspective on Pre-Training Graph Neural Networks
Jiarong Xu Renhong Huang XIN JIANG Yuxuan Cao Carl Yang Chunping Wang Yang Yang
研究问题:本文旨在解决图神经网络预训练中“大数据诅咒”现象,即更多的训练数据并不一定能带来更好的下游性能。
动机:现有的图预训练模型通常需要大量的输入数据才能取得成功,但作者发现这并非必要条件。因此,他们提出了一种用更少但更精心选择的数据进行预训练的新框架。
方法:作者提出了一个名为“data-active graph pre-training”(APT)的预训练管道,该管道由一个图选择器和一个预训练模型组成。图选择器根据图的内在属性和预测不确定性来选择最具代表性和指导性的数据点。预训练模型在接收到选定的数据后,一方面对新的、未见过的数据进行初步理解,另一方面尝试记住从以前的数据中学到的知识。
效果:实验结果表明,提出的APT能够在使用较少的训练数据的情况下获得更有效的预训练模型,并且具有更好的下游性能。
Doubly-Robust Self-Training
Banghua Zhu Mingyu Ding Philip Jacobson Ming Wu Wei Zhan Michael Jordan Jiantao Jiao
研究问题:本文旨在解决半监督学习中,如何有效利用未标记数据的问题。
动机:现有的半监督学习方法主要依赖于生成的伪标签的准确性,但当伪标签完全错误或完全准确时,这些方法的效果并不理想。
方法:本文提出了一种创新的半监督学习算法——双重稳健自我训练,该算法在伪标签完全错误时仅使用标记数据进行训练,而在伪标签完全准确时则使用所有伪标签和标记数据进行训练,从而增加有效样本大小。
效果:通过在ImageNet图像分类数据集和nuScenes自动驾驶3D物体检测数据集上的实验评估,验证了双重稳健损失函数优于自我训练基线。
Chasing Fairness Under Distribution Shift: A Model Weight Perturbation Approach
Zhimeng Jiang Xiaotian Han Hongye Jin Guanchu Wang Rui Chen Na Zou Xia Hu
研究问题:近年来,机器学习中的公平性问题
动机:现有的半监督学习方法主要依赖于生成的伪标签的准确性,但当伪标签完全错误或完全准确时,这些方法的效果并不理想。
方法:本文提出了一种创新的半监督学习算法——双重稳健自我训练,该算法在伪标签完全错误时仅使用标记数据进行训练,而在伪标签完全准确时则使用所有伪标签和标记数据进行训练,从而增加有效样本大小。
效果:通过在ImageNet图像分类数据集和nuScenes自动驾驶3D物体检测数据集上的实验评估,验证了双重稳健损失函数优于自我训练基线。
Characterizing the Impacts of Semi-supervised Learning for Weak Supervision
Jeffrey Li Jieyu Zhang Ludwig Schmidt Alexander Ratner
研究问题:如何更有效地标注训练数据以提高机器学习模型的准确性?
动机:标注训练数据是制作高精度ML模型的关键且昂贵的步骤,无论是从头开始训练还是微调。
方法:本研究定义了一个简单的、模块化的设计空间,以系统地研究使用半监督学习(SSL)技术进行弱监督(WS)的方法。
效果:研究发现,设计空间中相当简单的方法就能达到最先进的复杂方法的性能,平均而言,在8个标准的WS基准测试中,准确率/F1分数提高了3%。此外,我们还提供了关于何时不同的组件值得增加其复杂性和训练成本的实际指导。与当前的理解相反,我们发现在大多数WS基准测试中,使用SSL并不一定能获得最佳性能,但在以下情况下更有效:(1)最终模型较小;(2)WS只为训练示例的一小部分提供标签。
This Looks Like Those: Illuminating Prototypical Concepts Using Multiple Visualizations
Chiyu Ma Brandon Zhao Chaofan Chen Cynthia Rudin
研究问题:如何通过结合深度学习和案例推理,使用原型部分进行可解释的图像分类。
动机:现有的基于原型的图像分类方法只提供一对一的比较,难以确定比较的基础概念(如颜色或形状)。
方法:修改原型网络架构,学习由多个图像补丁可视化的原型概念,使同一原型有多个可视化表示,从而创建更丰富、更可解释的视觉解释。
效果:实验表明,这种“这个看起来像那些”的推理过程可以作为对现有各种原型图像分类网络的修改,同时在基准数据集上实现相当的准确性。
Is Heterogeneity Notorious? Taming Heterogeneity to Handle Test-Time Shift in Federated Learning
Yue Tan Chen Chen Weiming Zhuang Xin Dong Lingjuan Lyu Guodong Long
研究问题:如何在联邦学习中处理特征级别的测试时移问题。
动机:现有的联邦学习方法在处理训练阶段的客户端间异质性问题时效果良好,但在处理测试阶段的客户端内异质性问题时表现不佳。
方法:提出一种基于对比学习的联邦学习方法FedICON,该方法通过捕捉不同客户端之间的不变知识,并不断调整模型以适应测试数据。
效果:实验证明,FedICON能有效解决联邦学习中的测试时移问题。
Disambiguated Attention Embedding for Multi-Instance Partial-Label Learning
Wei Tang Weijia Zhang Min-Ling Zhang
研究问题:如何有效地处理多实例部分标签学习任务,特别是在真实世界的任务中,其中对象研究问题:如何有效地处理多实例部分标签学习任务,特别是在真实世界的任务中,其中对象可以表示为与候选标签集关联的多实例包,该标签集包括一个真实标签和几个假阳性标签。
动机:现有的多实例部分标签学习方法忽视了全局包级信息,并且包的预测标签对负实例的预测非常敏感。因此,需要一种更有效的方法来处理这类问题。
方法:提出了一种新的方法DEMIPL,即解歧义注意力嵌入的多实例部分标签学习方法。DEMIPL使用解歧义注意力机制将多实例包聚合成一个单一的向量表示,然后通过基于动量的解歧义策略从候选标签集中识别出真实标签。
效果:实验结果在基准数据集和真实世界数据集上都验证了DEMIPL相对于比较的多实例部分标签学习方法和部分标签学习方法的优势。
Not All Out-of-Distribution Data Are Harmful to Open-Set Active Learning
Yang Yang Yuxuan Zhang XIN SONG Yi Xu
研究问题:现有的主动学习(AL)方法在处理真实世界应用中的分布外(OOD)实例时表现不佳,因为OOD实例总是不可避免的存在于未标记的数据中,可能导致采样效率低下。
动机:为了解决这个问题,我们提出了一种简单而有效的采样方案——渐进式主动学习(PAL),它采用渐进式采样机制来有效选择有价值的OOD实例。
方法:PAL通过综合评估实例的丰富性和代表性来衡量未标记的实例,从而在每一轮中平衡伪ID和伪OOD实例,增强ID分类器和OOD检测器的能力。
效果:广泛的实验表明,与最先进的方法相比,PAL在各种开放集AL场景中都表现出了有效性。代码可在https://github.com/njustkmg/PAL获取。
A case for reframing automated medical image classification as segmentation
Sarah Hooper Mayee F Chen Khaled Kamal Saab Kush Bhatia Curtis Langlotz Christopher Re
研究问题:重新审视在医学影像分析中,训练分类模型与分割模型的选择。
动机:尽管分类模型历史上标签成本更低且应用更广泛,但近期的研究表明分割模型的训练成本已大幅降低。
方法:采用信息理论分析分割模型和分类模型在同一数据集和总体任务上可能实现不同性能的原因,并实施多种使用分割模型对医学影像进行分类的方法(称为“分割用于分类”),并将其与传统分类方法在三个回顾性数据集上进行比较。
效果:通过分析实验总结出从分割转向分类的好处,包括提高样本效率、在少数标签图像上实现更好的性能(最多可降低一个数量级)、在低流行类别和某些罕见亚组上(最多提高161.1%的召回率)、提高对虚假相关性的鲁棒性(最多提高44.8%的鲁棒AUROC)以及提高模型的可解释性、评估和错误分析。
Open Compound Domain Adaptation with Object Style Compensation for Semantic Segmentation
Tingliang Feng Hao Shi Xueyang Liu Wei Feng Liang Wan Yanlin Zhou Di Lin
研究问题:语义图像分割中,如何更准确地预测目标领域图像的伪标注以训练分割网络。
动机:现有的方法通过全局适应图像的场景风格来最小化源领域和目标领域图像之间的风格差距,但对于不同类别或实例的对象风格适应性较差。
方法:提出对象风格补偿方法,构建多组差异特征的对象级差异记忆。一组中的差异特征捕捉同一类别的对象实例从目标领域到源领域的风格变化。我们从源领域和目标领域的图像中学习差异特征,并将其存储在记忆中。利用这个记忆,我们为各种类别的对象实例选择适当的差异特征来补偿其风格信息,将对象风格适应到源领域的统一风格。
效果:该方法使目标领域图像的伪标注计算更加准确,从而在不同的数据集上取得了最先进的结果。
Anonymous Learning via Look-Alike Clustering: A Precise Analysis of Model Generalization
Adel Javanmard Vahab Mirrokni
研究问题:如何在保证用户数据安全的同时,提高个性化推荐系统的性能?
动机:随着个性化推荐系统的普及,如何保护用户数据隐私成为一大关注点。
方法:本文提出了一种名为“相似性聚类”的自然技术,通过将个体的敏感特征替换为集群的平均值进行模型训练。
效果:理论分析和实验证明,在某些高维情况下,使用匿名集群中心进行训练可以作为正则化手段,提高模型的泛化能力。
A Data-Free Approach to Mitigate Catastrophic Forgetting in Federated Class Incremental Learning for Vision Tasks
Sara Babakniya Zalan Fabian Chaoyang He Mahdi Soltanolkotabi Salman Avestimehr
研究问题:深度学习模型在处理新数据时,往往会忘记之前学到的信息,这个问题在联邦学习中尤为严重。
动机:联邦学习中的数据是分散的,每个用户都可以独立地改变数据,因此如何解决遗忘问题是一大挑战。
方法:本文提出了一个联邦类别增量学习的框架,利用生成模型从过去的分布中合成样本,这些数据可以与训练数据一起使用以减轻灾难性遗忘。为了保护隐私,生成模型在每个任务结束时在服务器上使用无数据的方法进行训练,而无需请求客户端的数据。
效果:通过在多个数据集上的大量实验,我们的方法相比现有的基线取得了显著的改进。
Navigating Data Heterogeneity in Federated Learning: A Semi-Supervised Approach for Object Detection
Taehyeon Kim Eric Lin Junu Lee Christian Lau Vaikkunth Mugunthan
研究问题:如何在保持数据隐私的同时,使用联邦学习在分布式数据源上训练模型,特别是在研究问题:如何在保持数据隐私的同时,使用联邦学习在分布式数据源上训练模型,特别是在自动驾驶等应用中面临有限高质量标签和非独立同分布客户端数据的挑战。
动机:现有的联邦学习方法在处理非独立同分布的客户端数据和有限高质量标签时面临挑战,尤其是在自动驾驶等应用中。
方法:提出了一种新颖的半监督联邦目标检测(SSFOD)框架,该框架适用于只有服务器拥有标注数据,而客户端拥有未标注数据的场景。特别是,该方法是首次实现对0%标注非独立同分布数据的客户端进行SSFOD的方法。
效果:通过在著名自动驾驶数据集(BDD100K、Cityscapes和SODA10M)上的广泛验证,证明了该方法的有效性,展示了最先进的结果。特别地,FedSTO仅使用20-30%的标签,其表现几乎与全监督集中式训练方法相当。
Slimmed Asymmetrical Contrastive Learning and Cross Distillation for Lightweight Model Training
Jian Meng Li Yang Kyungmin Lee Jinwoo Shin Deliang Fan Jae-sun Seo
研究问题:现有的对比学习算法在轻量级模型上表现不佳,且需要大量计算资源,限制了其在资源受限的AI应用中的使用。
动机:为了解决这些问题,我们提出了一种新的自我监督对比学习方案SACL-XD。
方法:SACL-XD由两个技术组件组成,即缩小的非对称对比学习和跨蒸馏。这种方法不需要预先训练的模型作为教师进行无监督的知识蒸馏,而是从零开始训练对比学习模型。
效果:实验结果表明,与最先进的轻量级对比学习(蒸馏)算法相比,SACL-XD在MobileNet-V3上实现了1.79%的ImageNet-1K准确率提升,同时减少了64倍的训练FLOPs。
Enhancing Knowledge Transfer for Task Incremental Learning with Data-free Subnetwork
Qiang Gao Xiaojun Shan Yuchen Zhang Fan Zhou
研究问题:如何在密集网络中利用竞争子网络和彩票假设,实现知识的有效转移?
动机:解决顺序到达的任务中的知识转移问题,缓解灾难性遗忘,同时考虑到过去数据的不可用性和隐私问题。
方法:提出一种新的神经元级任务增量学习方法——数据自由子网络(DSN),通过选择一组小神经元的关联权重进行激活,包括通过神经元级掩码重用先前任务的神经元,并通过数据自由的重播将可能有价值的知识转移到早期任务。
效果:在四个基准数据集上进行的全面实验表明,与几种最先进的基线相比,DSN在任务增量学习环境中具有有效性。特别是,DSN能够实现对早期任务的知识转移,这是以往工作往往忽视的。
MIM4DD: Mutual Information Maximization for Dataset Distillation
Yuzhang Shang Zhihang Yuan Yan Yan
研究问题:如何通过合成小数据集,使其在相同模型下测试性能与完整数据集相当。
动机:目前的尖端方法主要通过匹配从真实数据和合成数据中提取的启发式指标来优化合成数据集,但忽略了信息理论中测量变量之间共享信息的必要度量标准。
方法:引入互信息作为量化合成数据和真实数据集之间共享信息的度量标准,并设计了MIM4DD,通过在对比学习框架内更新合成数据集的新设计的可优化目标,数值上最大化互信息。
效果:实验结果表明,MIM4DD可以作为现有尖端DD方法的附加模块实施。
DAMEX: Dataset-aware Mixture-of-Experts for visual understanding of mixture-of-datasets
Yash Jain Harkirat Behl Zsolt Kira Vibhav Vineet
研究问题:如何有效地在一个大型混合数据集上训练模型?
动机:现有的方法通过在公共主干上设置单独的检测头来实现,但这会导致参数显著增加。
方法:我们提出了混合专家(Mixture-of-Experts)作为解决方案,并强调MoE不仅仅是一个可扩展工具。我们提出了数据集感知的混合专家(Dataset-Aware Mixture-of-Experts,DAMEX),通过学习将每个数据集的标记路由到其映射的专家来训练专家成为某个数据集的“专家”。
效果:在通用目标检测基准测试中,我们的实验结果优于现有最先进的方法,平均AP得分提高了10.2分,比非MoE基线提高了2.0分。我们还观察到在混合具有(1)有限可用性、(2)不同领域和(3)发散标签集的数据集时,DAMEX始终能获得一致的收益。此外,我们从定性上证明DAMEX对专家表示崩溃具有鲁棒性。代码可在https://github.com/jinga-lala/DAMEX获取。
Decompose a Task into Generalizable Subtasks in Multi-Agent Reinforcement Learning
Zikang Tian Ruizhi Chen Xing Hu Ling Li Rui Zhang Fan Wu Shaohui Peng Jiaming Guo Zidong Du Qi Guo Yunji Chen
研究问题:如何在多智能体强化学习(MARL)中实现任务之间的模型迁移。
动机:训练每个任务的模型从零开始既耗时又昂贵,特别是在大规模的多智能体系统中,因此需要开发一种可以在任务之间泛化模型的方法。
方法:提出了一种新的框架DT2GS,通过使用可扩展的子任务编码器和自适应子任务语义模块,将任务分解为一系列可泛化的子任务。
效果:实验结果表明,DT2GS具有可靠的零样本泛化能力,表现出足够的迁移性,并在多任务和单任务问题上优于现有方法。
Characterizing Out-of-Distribution Error via Optimal Transport
Yuzhe Lu Yilong Qin Runtian Zhai Andrew Shen Ketong Chen Zhenlin Wang Soheil Kolouri Simon Stepputtis Joseph Campbell Katia P. Sycara
研究问题:如何准确预测模型在未标记的分布外(OOD)数据上的性能,以提高机器学习的安全性。
动机:现有的方法往往低估了实际错误,这严重影响了它们在实际任务中的应用。
方法:通过识别“伪标签偏移”,即预测的和真实的OOD标签分布之间的差异,并利用最优传输理论,提出了一种新的估计模型性能的方法——Confidence Optimal Transport(COT)。
效果:实验证明,该方法在各种类型的分布转移(合成、新的子群体、自然)的标准基准上,显著优于现有的最先进方法,预测误差降低了高达3倍。
Generalized Semi-Supervised Learning via Self-Supervised Feature Adaptation
Jiachen Liang RuiBing Hou Hong Chang Bingpeng Ma Shiguang Shan Xilin CHEN
研究问题:传统的半监督学习(SSL)假设有标签和无标签的数据特征分布是一致的,但在现实场景中这很少成立。
动机:本文提出了一种新的SSL设置,其中无标签样本来自偏离有标签样本特征分布的混合分布。在这种设置下,以前的SSL方法往往会预测错误的伪标签,导致噪声积累。
方法:为解决这个问题,我们提出了“自我监督特征适应”(SSFA),这是一个通用框架,用于在有标签和无标签数据来自不同分布时提高SSL性能。SSFA将伪标签的预测与当前模型解耦,以提高伪标签的质量。特别是,SSFA将一个自我监督任务纳入SSL框架,并使用它来调整模型的特征提取器以适应无标签数据。这样,提取的特征更好地适应无标签数据的分布,从而生成高质量的伪标签。大量实验表明,我们提出的SSFA适用于各种基于伪标签的SSL学习器,并在有标签、无标签甚至未见过的数据分布上显著提高了性能。
效果:实验证明,该方法在各种类型的分布转移(合成、新的子群体、自然)的标准基准上,显著优于现有的最先进方法,预测误差降低了高达3倍。
CoDrug: Conformal Drug Property Prediction with Density Estimation under Covariate Shift
Siddhartha Laghuvarapu Zhen Lin Jimeng Sun
研究问题:在药物发现中,如何通过计算模型预测药物性质并确定其可靠性。
动机:由于计算模型的预测需要通过昂贵的湿实验进行验证,因此获取可靠的不确定性估计对于优先选择药物分子进行后续实验验证至关重要。
方法:提出一种名为CoDrug的方法,该方法使用能量基础模型和核密度估计来评估分子集的密度,然后利用这些估计的密度对分子样本进行加权,同时构建预测集并纠正分布偏移。
效果:在涉及现实分布漂移的各种小分子药物发现任务的广泛实验中,CoDrug展示了其提供有效预测集以及解决由全新药物设计模型引起的分布偏移的能力。平均而言,与未调整协变量偏移的保真预测集相比,使用CoDrug可以将覆盖差距减少超过35%。
An Iterative Self-Learning Framework for Medical Domain Generalization
Zhenbang Wu Huaxiu Yao David Liebovitz Jimeng Sun
研究问题:深度学习模型在医疗决策中应用广泛,但面临数据分布不同的挑战,即领域转移问题。
动机:现有的领域泛化算法假设所有领域的类别已知,并训练一个模型处理所有领域,但在医疗环境中,患者可以被分为许多未知的潜藏领域,每个领域的临床特征都不同,因此训练一个模型处理所有领域并不理想。
方法:我们提出了SLGD,一种自我学习框架,通过迭代发现解耦的领域并为每个解耦的领域训练个性化的分类器。
效果:我们在eICU和MIMIC-IV两个真实世界公共EHR数据集上评估了SLGD的空间和时间数据分布转移的可泛化性,结果显示,SLGD在AUPRC得分上比最佳基线提高了11%。
Joint Learning of Label and Environment Causal Independence for Graph Out-of-Distribution Generalization
Shurui Gui Meng Liu Xiner Li Youzhi Luo Shuiwang Ji
研究问题:解决图的分布外泛化(OOD)问题。
动机:现有的图OOD算法要么依赖于限制性的假设,要么无法在训练数据中利用环境信息。
方法:提出同时结合标签和环境因果独立性(LECI)的方法,充分利用标签和环境信息,以解决现有方法在识别因果和不变子图方面面临的挑战。进一步开发了一种对抗性训练策略,为因果子图发现联合优化这两个属性,并具有理论保证。
效果:实验和分析表明,LECI在合成和真实世界数据集上都显著优于现有方法,证明LECI是一种实用且有效的图OOD泛化解决方案。
Improving Adversarial Transferability via Intermediate-level Perturbation Decay
Qizhang Li Yiwen Guo Wangmeng Zuo Hao Chen
研究问题:现有的中间层攻击方法需要两个阶段,且在特征空间中产生的偏离可能导致次优的攻击效果。
动机:为了解决现有方法的不足,提出一种单阶段优化的中间层攻击方法。
方法:开发了一种名为“中间层扰动衰减”(ILPD)的新方法,该方法同时鼓励中间层扰动向有效的对抗方向并具有较大的幅度。
效果:实验结果表明,该方法在ImageNet和CIFAR-10上的各种受害者模型攻击中,平均性能分别比现有最佳方法高出10.07%和3.88%。
Retaining Beneficial Information from Detrimental Data for Neural Network Repair
Long-Kai Huang Peilin Zhao Junzhou Huang Sinno Pan
研究问题:深度学习模型的性能严重依赖于训练数据的质量,训练数据的缺陷可能导致模型泛化失败。
动机:目前的修复方法通过识别导致失败的训练样本并从模型中移除其影响进行模型修复,但这种方法可能会误删有益的信息,对模型性能产生负面影响。
方法:我们提出了一种新方法,该方法利用保留的干净数据集的知识来识别有害的数据,然后从识别出的数据中分离有益和有害的信息,最后利用提取出的有益信息来提升模型性能。
效果:实验结果表明,我们的方法在识别有害数据和纠正模型失败方面优于基线方法,特别是在识别困难且涉及大量良性数据的场景下,我们的方法在改善性能的同时,基线方法由于错误地删除有益信息而性能下降。
Truncated Affinity Maximization: One-class Homophily Modeling for Graph Anomaly Detection
Hezhe Qiao Guansong Pang
研究问题:本文旨在解决现实世界图异常检测(GAD)数据集中的一种普遍现象,即研究问题:本文旨在解决现实世界图异常检测(GAD)数据集中的一种普遍现象,即正常节点之间的连接/亲和力强,而异常节点的同质性明显弱于正常节点。
动机:现有的GAD方法通常使用传统的异常检测目标(如数据重建)来构建,忽视了这种异常判别属性。
方法:本文提出了一种新的无监督异常评分度量——局部节点亲和力,用于GAD。该度量将较小的异常分数分配给与其邻居关联度较低的节点,亲和力定义为节点属性/表示的相似性。进一步提出了截断亲和力最大化(TAM),通过最大化节点与其邻居的局部亲和力来学习定制的节点表示。由于非同质边(即连接正常和异常节点的边)的存在,优化原始图结构可能会产生偏见。因此,TAM在迭代中移除非同质边以减轻这种偏见。
效果:在10个真实世界的GAD数据集上的大量实证结果表明,TAM显著优于七个竞争模型,在具有挑战性的数据集上与最佳竞争者相比,AUROC/AUPRC提高了超过10%。代码可在https://github.com/mala-lab/TAM-master/获取。
Module-wise Adaptive Distillation for Multimodality Foundation Models
Chen Liang Jiahui Yu Ming-Hsuan Yang Matthew Brown Yin Cui Tuo Zhao Boqing Gong Tianyi Zhou
研究问题:预训练的多模态基础模型虽然具有显著的泛化能力,但由于其大尺寸在部署时带来了挑战。
动机:为了减小模型的大小,我们提出了一种有效的方法,即层次蒸馏。在此过程中,我们发现某些架构组件(称为模块)对学生的学习表现的贡献更大。
方法:我们通过记录每个模块在蒸馏后的损耗减少量来跟踪单个模块的贡献,并选择贡献更大的模块进行更频繁的蒸馏。这种方法可以自然
效果:在10个真实世界的GAD数据集上的大量实证结果表明,TAM显著优于七个竞争模型,在具有挑战性的数据集上与最佳竞争者相比,AUROC/AUPRC提高了超过10%。代码可在https://github.com/mala-lab/TAM-master/获取。
Can Language Models Teach? Teacher Explanations Improve Student Performance via Personalization
Swarnadeep Saha Peter Hase Mohit Bansal
研究问题:本文旨在解决大型语言模型(LLMs)是否能够成为弱代理的良好教师的问题。
动机:虽然大型语言模型通过生成预测的解释来进行复杂的推理,但尚不清楚它们是否也能成为弱代理的良好教师。
方法:本文在两个LLM代理之间建立了一个学生-教师框架,并研究了教师应该在何时以及如何介入自然语言解释以改善学生的表现。
效果:实验结果表明,教师LLMs确实可以干预学生推理以提高其表现。此外,通过建立两个少次心理模型,教师不仅可以在干预效用最高时进行干预,提高预算下的学生表现,还可以为特定的学生个性化解释,超越未个性化的教师。同时,多轮交互中,教师的解释具有泛化性,从已解释数据中学习可以提高学生在未来未解释数据上的表现。最后,作者还验证了故意误导学生的不匹配教师可能会将学生的表现降低到随机水平。
Make the U in UDA Matter: Invariant Consistency Learning for Unsupervised Domain Adaptation
Zhongqi Yue Qianru Sun Hanwang Zhang
研究问题:领域适应(DA)面临的挑战是目标领域中普遍存在的虚假相关性,即与特定领域相关的特征(如环境)和与领域无关的特征(如类别身份)之间的相关性无法泛化到目标领域。
动机:现有的无监督领域适应(UDA)方法在增加额外的无监督目标领域后仍然受到这个问题的影响。这是因为源领域的监督只将目标领域的样本视为辅助数据(例如通过伪标签),而忽略了目标领域中隐藏的有价值的去相关性线索的内在分布。
方法:我们提出了一种名为“不变性一致性学习”(ICON)的方法,该方法赋予两个领域同等的地位。具体来说,我们学习一个不变的分类器,其预测结果同时与源领域的标签和目标领域的簇一致,从而消除了目标领域中的虚假相关性。
效果:大量的实验表明,ICON在经典的UDA基准测试中实现了最先进的性能,包括Office-Home和VisDA-2017,并在具有挑战性的WILDS 2.0基准测试中超越了所有传统方法。
Simple and Asymmetric Graph Contrastive Learning without Augmentations
Teng Xiao Huaisheng Zhu Zhengyu Chen Suhang Wang
研究问题:如何对同质和异质图进行对比学习。
动机:现有的图对比学习方法依赖于预先制作的图增强和同质性假设,无法很好地泛化到具有不同类别标签和不相似特征的异质图中。
方法:通过考虑邻居节点的非对称视图,提出了一种简单的算法——图非对称对比学习(GraphACL),无需依赖图增强和同质性假设。
效果:实验结果表明,GraphACL在同质和异质图上的对比学习性能显著优于现有方法。
Bounding the Invertibility of Privacy-preserving Instance Encoding using Fisher Information
Kiwan Maeng Chuan Guo Sanjay Kariyappa G. Edward Suh
研究问题:如何将原始数据编码为特征向量,同时不泄露其隐私敏感信息。
动机:现有的大多数方案没有从理论上证明其编码是不可逆的,其增强隐私的属性仅通过有限的攻击进行经验验证。
方法:提出一种基于Fisher信息的实例编码可逆性理论测量方法,该方法广泛适用于各种流行的编码器。
效果:证明了dFIL可以用于从理论和经验上限制编码的可逆性,为实例编码的隐私性提供了直观的解释。
Partial Multi-Label Learning with Probabilistic Graphical Disambiguation
Jun-Yi Hang Min-Ling Zhang
研究问题:本文旨在解决部分多标签学习(PML)中,每个训练样本都与一组候选标签相关联,其中只有一些标签是有效的,而现有方法主要依赖于启发式或特定规则来消除候选标签的歧义。
动机:为了提供一种原则性的方式来消除歧义,我们首次尝试探索概率图模型来解决PML问题,通过定制一个有向图来从部分多标签数据的生成过程中推断出潜在的真实标签信息。
方法:在随机梯度变分贝叶斯框架下,为这个图形模型推导出一个统一的变分下界,进一步放松概率以诱导出所需的预测模型和同时识别的真实标签信息。
效果:在多个合成和现实世界数据集上的全面实验表明,我们的方法优于最先进的对应方法。
Learning to Group Auxiliary Datasets for Molecule
Tinglin Huang Ziniu Hu Zhitao Ying
研究问题:小分子数据集的标注有限,对机器学习模型构成了挑战。
动机:虽然增加数据量可以缓解这个问题,但更多的数据并不总是能带来改进,因为目标数据集和辅助分子数据集的知识可能存在差异或矛盾,导致负迁移现象。
方法:我们提出了MolGroup方法,通过结合图结构相似性和任务相似性,将数据集亲和力分为任务亲和力和结构亲和力,预测每个辅助分子数据集的潜在效益。
效果:实验表明,使用MolGroup选择的分子数据集组进行训练,GIN和Graphormer在11个目标分子数据集上的平均性能提高了4.41%/3.47%。
Towards Generic Semi-Supervised Framework for Volumetric Medical Image Segmentation
Haonan Wang Xiaomeng Li
研究问题:如何利用半监督学习(SSL)技术,处理3D医疗图像的标签问题,特别是在无监督领域适应(UDA)和半监督领域泛化(SemiDG)等复杂情况下。
动机:由于3D医疗图像的标签工作需要专业知识且耗时,因此使用半监督学习方法训练模型的需求日益增长。然而,现有的半监督学习方法在UDA和SemiDG等场景中存在挑战和应用局限。
方法:提出了一个通用的半监督学习框架,该框架通过聚合和去耦两个部分来解决问题。聚合部分包括一个扩散编码器,用于从多个分布/域的聚合信息中提取分布不变的特征,构建"公共知识集"。去耦部分包括三个解码器,将有标签和无标签数据的训练过程进行解耦,从而避免过拟合到有标签数据、特定域和类别。
效果:在四个基准数据集上进行了评估,包括SSL、类别不平衡的SSL、UDA和SemiDG。实验结果展示出相比现有方法的显著改进,表明该框架具有处理更复杂半监督学习场景的潜力。
Loss Decoupling for Task-Agnostic Continual Learning
Yan-Shuo Liang Wu-Jun Li
研究问题:本文旨在解决持续学习中的任务无关问题,即在推理阶段无法获得任务身份,模型需要学会区分所有任务的所有类别。
动机:现有的任务无关的持续学习方法通常将两个新目标混合在一起,这阻碍了模型在稳定性和可塑性之间取得良好的平衡。
方法:本文提出了一种名为损失解耦(LODE)的简单而有效的方法,通过解耦新任务的损失来分离这两个新目标的两个目标。
效果:实验表明,LODE可以在多个持续学习数据集上超越现有的最先进的重播方法。
Projection Regret: Reducing Background Bias for Novelty Detection via Diffusion Models
Sungik Choi Hankook Lee Honglak Lee Moontae Lee
研究问题:如何有效地检测出异常(即分布外)样本,特别是在这些样本与正常样本有相似背景信息的情况下。
动机:现有的基于生成模型的新颖性检测方法主要利用了内分布样本的重建特性,但在检测到具有相似背景信息的分布外样本时表现不佳。
方法:提出了一种名为“投影遗憾”(PR)的新型新颖性检测方法,该方法通过比较测试图像与其扩散基投影之间的感知距离来检测异常。为了消除背景信息的偏见,将感知距离与递归投影进行比较。
效果:实验证明,PR在检测新颖性方面优于现有基于生成模型的方法,尤其是在处理具有相似背景信息的分布外样本时,其性能提升显著。
Reproducibility in Multiple Instance Learning: A Case For Algorithmic Unit Tests
Edward Raff James Holt
研究问题:多重实例学习(MIL)是一种分类问题,其中包含正负标签和一组输入,如果一个正面元素包含在包中,则标签为正面,否则为负面。在此背景下进行训练需要将包级标签与实例级信息关联起来,并隐含地包含因果关系假设和任务的不对称性。
动机:在医疗保健、网络安全等许多任务中,都会出现MIL问题。然而,我们发现五个最突出的深度-MIL模型都没有尊重标准的MIL假设,它们能够学习反相关的实例,即默认为“正面”标签,直到看到一个负面的反例。这可能会产生学习不正确的模型,从而带来操作失败的风险。
方法:我们通过提出一种“算法单元测试”,创建可以被尊重MIL假设的模型解决的合成数据集,清楚地揭示违反MIL假设的学习情况。这五种评估方法中的每一个都会在一个或多个这些测试中失败。
效果:这种方法提供了一种模型无关的方式来识别模型假设的违反,我们希望这将对未来MIL模型的开发和评估有所帮助。
Multi-task learning with summary statistics
Parker Knight Rui Duan
研究问题:如何利用多任务学习整合来自多个源的数据,特别是在医疗环境中受到数据共享限制的情况下。
动机:现有的多任务学习方法在实际应用中受到数据共享限制的影响,尤其是在医疗领域。
方法:提出一种灵活的多任务学习框架,利用来自不同来源的汇总统计数据进行训练,并基于Lepski方法的变体提出一种自适应参数选择方法。
效果:通过大量的模拟实验证明了该方法的理论成果和性能,为跨多个领域的相关模型训练提供了更灵活的工具,对遗传风险预测等领域具有实际意义。
Data Quality in Imitation Learning
Suneel Belkhale Yuchen Cui Dorsa Sadigh
研究问题:本文旨在解决模仿学习中由于动作预测误差导致的状态分布偏移问题,以及如何评估和整理数据集以提高数据质量。
动机:在离线机器人学习中,缺乏互联网规模的数据,因此高质量的数据集是必要的。而在模仿学习中,由于动作预测的误差,测试时的策略会遭受状态分布偏移,导致策略无法恢复未见过的状态。
方法:本文提出了一种新的评估和整理数据集的方式,通过定义“数据质量”的度量标准来鼓励策略在测试时保持分布稳定。我们提出了两个基本属性,即动作发散和转换多样性,并从理论上和实证上分析了这两种关键属性在模仿学习中的影响。
效果:实验结果表明,状态多样性并不总是有益的,而动作发散和转换多样性在实践中是如何相互作用的。
Collaboratively Learning Linear Models with Structured Missing Data
Chen Cheng Gary Cheng John Duchi
研究问题:本文研究了如何协同学习最小二乘估计,以解决多代理观察不同特征子集的问题。
动机:每个代理观察不同的特征子集,例如从不同分辨率的传感器收集的数据。目标是确定如何协调代理,以产生每个代理的最佳估计器。
方法:提出了一种分布式、半监督算法Collab,包括三个步骤:局部训练、聚合和分发。该过程不需要通信标记数据,使其具有高效的通信能力,并在标记数据不可访问的环境中非常有用。
效果:尽管存在这些限制,但该方法在局部最小最大优化方面几乎达到了近似最优——即使在允许通信标记数据的估计器(如插值方法)中也是如此。我们在US人口普查数据上测试了该方法,并讨论了将其扩展到非高斯特征设置、非线性设置和联邦学习的情况。
Blurred-Dilated Method for Adversarial Attacks
Yang Deng Weibin Wu Jianping Zhang Zibin Zheng
研究问题:深度神经网络易受对抗性攻击,导致预测错误。在黑箱设置中,转移攻击可以方便地用于生成对抗性样本,但这些例子往往过于适应源模型的特定架构和特征表示,导致对其他目标模型的攻击性能不佳。
动机:为了克服这个缺点,我们提出了一种新的基于模型修改的转移攻击:模糊扩张方法(BD)。
方法:BD通过减少下采样同时引入模糊池化和扩张卷积来修改源模型。然后,BD使用修改后的源模型生成对抗性样本。我们认为BD可以比原始源模型更全面地保留特征信息,从而更彻底地破坏图像特征,提高生成的对抗性样本的可转移性。
效果:在ImageNet数据集上的大量实验表明,由BD生成的对抗性示例实现了比最先进的基线显著更高的可转移性。此外,BD可以方便地与现有的黑箱攻击技术结合,进一步提高其性能。
CADet: Fully Self-Supervised Out-Of-Distribution Detection With Contrastive Learning
Charles Guille-Escuret Pau Rodriguez David Vazquez Ioannis Mitliagkas Joao Monteiro
研究问题:本文旨在探索使用自我监督对比学习同时检测两种类型的OOD样本:未见过类别和对抗性扰动。
动机:处理分布外(OOD)样本已成为机器学习系统在现实世界部署中的主要难题。
方法:将自我监督对比学习与最大均值差异(MMD)两样本测试相结合,以鲁棒地测试两个独立样本集是否来自同一分布。并引入了一种新的单样本OOD检测方法CADet,该方法借鉴了MMD的思想,但利用了同一样本的对比变换之间的相似性。
效果:实验结果表明,这种方法在区分CIFAR-10和CIFAR-10.1方面的置信度高于以往工作。并且,CADet在识别对抗性扰动样本方面优于现有的对抗性检测方法,并在ImageNet-O和iNaturalist两个具有挑战性的基准上实现了与未见标签检测方法相当的性能。最重要的是,CADet是完全自我监督的,既不需要对内分布样本进行标签,也不需要访问OOD示例。
Neural Priming for Sample-Efficient Adaptation
Matthew Wallingford Vivek Ramanujan Alex Fang Aditya Kusupati Roozbeh Mottaghi Aniruddha Kembhavi Ludwig Schmidt Ali Farhadi
研究问题:如何让大型预训练模型适应小样本或无标签的分布变化和下游任务?
动机:面对有限的标注数据和不断变化的分布,现有的预训练模型往往表现不佳。
方法:提出神经启动(Neural Priming)技术,通过在测试时对预训练阶段见过的相关数据进行轻量级更新,使模型能够适应新的分布。
效果:在ImageNet和多个转移学习基准测试中,神经启动技术都取得了显著的准确性提升,证明了其在解决有限标注数据和分布变化问题上的有效性。
Easy Learning from Label Proportions
Robert Istvan Busa-Fekete Heejin Choi Travis Dick Claudio Gentile Andres Munoz medina
研究问题:学习标签比例(LLP)的弱监督分类设置中,实例被分组为独立同分布的“袋”,只有每个袋子中类别标签的频率是可用的。尽管学习者的目标是在单个实例级别实现低任务损失。
动机:我们提出了EASYLLP,一种基于聚合标签的灵活且易于实施的去偏方法,适用于任意损失函数。我们的方法可以准确估计任意模型在单个实例级别的预期损失。
方法:我们阐明了我们的方法与基于标签比例匹配的标准方法之间的区别,包括适用性和最优条件。我们将我们的方法应用于流行的学习框架,如经验风险最小化(ERM)和随机梯度下降(SGD),并在实例级别性能上提供保证。
效果:最后,我们在多个数据集上验证了我们的理论结果,实证地说明了我们的方法在哪些条件下预计会比之前的LLP方法表现得更好或更差。
Distributionally Robust Ensemble of Lottery Tickets Towards Calibrated Sparse Network Training
Hitesh Sapkota Dingrong Wang ZHIQIANG TAO Qi Yu
研究问题:如何实现网络预测的校准,特别是在处理过度自信和分布外情况时提高模型可靠性。
动机:最近的稀疏网络训练方法虽然可以从密集网络中找到稀疏子网络,但主要关注实现与密集对应物相当的准确性,而忽视了网络校准。
方法:提出一种新的分布稳健优化(DRO)框架,通过不确定性集的引导,学习多个多样化且互补的稀疏子网络(票),以实现校准的网络稀疏化。
效果:实验结果表明,我们提出的彩票票据集成在不牺牲准确性和推理成本的情况下,显著提高了校准性能。此外,对OOD数据集的实验表明,我们的方法在开放环境中具有鲁棒性。
Actively Testing Your Model While It Learns: Realizing Label-Efficient Learning in Practice
Dayou Yu Weishi Shi Qi Yu
研究问题:本文旨在解决主动学习中测试阶段的数据标注成本问题,以及主动学习和主动测试的断开问题。
动机:目前的主动学习方法主要关注降低模型训练阶段的标注成本,但测试阶段(即模型评估过程)同样需要数据标注,且其成本尚未得到充分探索。此外,现有的主动测试或主动评估方法往往将学习和测试阶段分开处理。
方法:本文提出了一种新的主动学习和主动测试集成框架(ATL),该框架在主动学习过程中周期性地进行测试,以实现公平的模型评估和有效的早期停止,从而进一步节省总标注成本。同时,ATL还引入了“主动反馈”机制,借鉴人类的学习方式,由教师(主动测试者)根据学生(主动学习者)的前期表现提供即时指导。
效果:理论分析和实际数据集上的实验结果表明,ATL框架能有效提高主动学习和评估任务的标注效率,同时保持了集成学习-测试目标的标签复杂度,并提高了模型的泛化能力。
Learning Repeatable Speech Embeddings Using An Intra-class Correlation Regularizer
Jianwei Zhang Suren Jayasuriya Visar Berisha
研究问题:如何提高深度学习模型中嵌入的可重复性?
动机:目前的嵌入方法对特定任务的标签变化敏感,但对其他混淆因素不具有不变性。
方法:利用测量理论中的重复性概念,提出使用内部类关联系数(ICC)来评估嵌入的可重复性,并设计了一种新的正则化器——ICC正则化器,作为对比损失的补充,引导深度神经网络生成具有更高可重复性的嵌入。
效果:在模拟数据上的实验表明,ICC正则化器在最小化类内方差方面优于仅使用对比损失。在三个语音任务上的应用实验结果显示,添加ICC正则化器可以提高学习嵌入的可重复性,并提高这些下游任务的性能。
Feature Selection in the Contrastive Analysis Setting
Ethan Weinberger Ian Connick Covert Su-In Lee
研究问题:如何在对比分析(CA)设置中进行特征选择。
动机:在对比分析中,目标数据集与背景数据集之间的独特变化需要被找出和利用,但目前机器学习社区对这个问题关注不足。
方法:提出对比特征选择(CFS)方法,用于在对比分析环境中进行特征选择。通过信息理论分析来激发该方法,并在半合成数据集和四个真实世界生物医学数据集中进行实证验证。
效果:该方法始终优于先前提出的最先进的监督和非监督特征选择方法,且特别适用于对比分析环境。
GradOrth: A Simple yet Efficient Out-of-Distribution Detection with Orthogonal Projection of Gradients
Sima Behpour Thang Doan Xin Li Wenbin He Liang Gou Liu Ren
研究问题:如何有效地检测机器学习模型在真实世界应用中的分布外(OOD)数据。
动机:现有的OOD检测方法主要依赖于特征映射或全梯度空间信息,忽视了预训练网络在分布内数据上最重要的参数的作用。
方法:提出了一种新的方法GradOrth,通过计算分布在ID数据中认为重要的子空间上的梯度投影的范数来识别OOD数据。
效果:这种方法表现出色,与当前最先进的方法相比,在95%的真阳性率下,平均假阳性率降低了8%。
Label-Retrieval-Augmented Diffusion Models for Learning from Noisy Labels
Jian Chen Ruiyi Zhang Tong Yu Rohan Sharma zhiqiang xu Tong Sun Changyou Chen
研究问题:如何从有噪声的标签中学习,特别是在实际应用中。
动机:现有的方法通常依赖于严格的假设,并且只适用于特定类型的标签噪声。
方法:本文从生成模型的角度重新定义了标签噪声问题,并利用强大的扩散模型学习随机生成过程。同时,提出了标签检索增强(LRA)扩散模型,利用邻居一致性有效地构造伪清洁标签进行扩散训练。
效果:实验结果表明,该方法在所有的基准数据集上都取得了新的最先进的结果。特别是通过引入强大的CLIP模型的条件信息,可以在许多情况下将当前最先进的准确率提高10-20个百分点。
DP-Mix: Mixup-based Data Augmentation for Differentially Private Learning
Wenxuan Bao Francesco Pittaluga Vijay Kumar b g Vincent Bindschaedler
研究问题:如何在保护数据隐私的前提下,提高计算机视觉模型的泛化能力。
动机:简单的图像变换和组合等数据增强技术在训练数据有限的情况下,能有效提高计算机视觉模型的泛化能力,但与差分隐私学习方式不兼容。
方法:提出了两种专为差分隐私学习限制设计的数据增强技术,DP-Mix_Self通过自我增强数据的混合获得最佳分类性能,DP-Mix_Diff通过将预训练扩散模型的合成数据融入混合过程进一步提高性能。
效果:这两种新方法在各种数据集和设置中都实现了最佳的分类性能,且源代码已在GitHub上开源。
Test-time Adaptation of Discriminative Models via Diffusion Generative Feedback
Mihir Prabhudesai Tsung-Wei Ke Alexander Cong Li Deepak Pathak Katerina Fragkiadaki
研究问题:扩散模型如何有效地用于判别任务?
动机:生成模型可以作为判别模型的有效测试时适配器。
方法:通过调节扩散模型的输出条件,将预训练的判别模型(如图像分类器、分割器和深度预测器)适应测试集中的每个未标记示例,使用来自扩散模型的生成反馈。然后通过反向传播梯度来最大化图像似然目标,优化判别模型的参数。
效果:Diffusion-TTA显著提高了各种大规模预训练判别模型的准确性,如ImageNet分类器、CLIP模型、图像像素标注器和图像深度预测器。在在线适应设置中,Diffusion-TTA优于现有的测试时适应方法,包括TTT-MAE和TENT。
Adaptive Contextual Perception: How To Generalize To New Backgrounds and Ambiguous Objects
Zhuofan Ying Peter Hase Mohit Bansal
研究问题:本文旨在探讨视觉模型如何自适应地利用上下文进行分布外(OOD)泛化,并利用分析结果改进模型的OOD泛化能力。
动机:生物视觉系统能够自适应地使用上下文在新环境中识别物体,以及在熟悉的环境中识别被遮挡或模糊的物体。然而,现有的计算机视觉模型在处理OOD泛化时存在困难。
方法:本文首先设定了两种不同的OOD设置,一种是有益的对象消歧,另一种是无关的背景不变性,反映了生物视觉面临的多样化上下文挑战。然后,分析模型在这两种情况中的表现,发现在一个设置中表现优秀的模型往往在另一个设置中表现不佳。通过表征几何分析和探查方法,研究发现具有更多分解表示和适当特征加权模型在处理对象消歧和背景不变性测试时更成功。
效果:基于分析结果,本文提出了新的增强模型泛化的方法,并在分布内和OOD测试中验证了这些方法的有效性。结果表明,为了复制生物视觉的泛化能力,计算机视觉模型必须具有分解的对象与背景表示,并适当权衡这两种类型的特征。
CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss
Rakshith Sharma Srinivasa Jaejin Cho Chouchang Yang Yashas Malur Saidutta Ching-Hua Lee Yilin Shen Hongxia Jin
研究问题:本文旨在考虑跨模态的零样本转移对比训练,其中一种模态中的预训练模型用于另一领域的表示学习。
动机:现有的对比训练方法主要采用正负例对进行相似性和差异性的对齐,但训练样本间的相似性具有连续性,因此需要更“非二元”的处理方式。
方法:提出一种新的对比损失函数——连续加权对比损失(CWCL),利用连续性的相似度度量来转移一个模态到另一个模态的嵌入空间结构。
效果:实验结果表明,使用CWCL的模型在多个模型、数据集和模态上的零样本转移性能超过了现有方法,并在零样本图像分类和零样本语音到意图分类以及关键词分类上分别取得了5-8%和20-30%的绝对性能提升。
Reward-Directed Conditional Diffusion: Provable Distribution Estimation and Reward Improvement
Hui Yuan Kaixuan Huang Chengzhuo Ni Minshuo Chen Mengdi Wang
研究问题:本文旨在探索通过条件扩散模型进行奖励导向生成的方法与理论。
动机:奖励导向生成的目标是根据奖励函数测量的期望属性生成样本,这在生成人工智能、强化学习和计算生物学等领域有广泛应用。
方法:我们考虑了主要包含未标记数据和少量带噪声奖励标签数据的常见学习场景。我们的方法利用较小数据集上的学习奖励函数作为伪标注器来标注未标记的数据。在伪标注后,我们在数据上训练条件扩散模型(CDM),并通过设置目标值$a$作为CDM的条件来生成样本。
效果:从理论上讲,我们发现这种奖励导向的生成器可以有效地学习和采样来自奖励条件的数据分布:1. 我们的模型能够恢复数据的潜在子空间表示;2. 该模型生成的样本越来越接近用户指定的目标。样本奖励的提高受到奖励信号强度、分布偏移和超出支持范围外推成本之间相互作用的影响。
Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models
Andy Zhou Jindong Wang Yu-Xiong Wang Haohan Wang
研究问题:本文旨在通过结合知识蒸馏和数据增强来提高视觉模型的鲁棒性。
动机:作者认为更大的模型并不一定能成为更好的教师,并通过在预训练的基础模型上进行蒸馏来证明这一假设。
方法:提出了离散对抗蒸馏(DAD)方法,利用一个鲁棒的教师生成对抗性样本,并使用VQGAN将它们离散化,从而创建出比标准数据增强技术更具信息量的样本。
效果:实验结果表明,该方法在不同学生架构上都取得了显著的分布外鲁棒性和清洁准确性的提升。此外,与类似技术相比,该方法只增加了很小的计算开销,并且可以很容易地与其他数据增强技术相结合以进一步提高性能。
Fairness Continual Learning Approach to Semantic Scene Understanding in Open-World Environments
Thanh-Dat Truong Hoang-Quan Nguyen Bhiksha Raj Khoa Luu
研究问题:本文旨在解决语义分割中的持续学习问题,同时关注模型的公平性。
动机:尽管现有的语义分割模型在持续学习方面取得了显著进展,但其公平性问题仍需得到更好的解决。公平性是部署深度学习模型的关键因素,尤其是在涉及人类或安全应用的场景中。
方法:提出了一种基于类分布的新公平性持续学习框架,并设计了一种新颖的原型对比聚类损失函数来解决持续学习中的重大问题,如灾难性遗忘和背景偏移。此外,还提出了条件结构一致性损失来进一步规范预测分割的结构约束。
效果:在三个标准场景理解基准测试(ADE20K、Cityscapes和Pascal VOC)上,该方法实现了最先进的性能,并提高了分割模型的公平性。
Robust Learning with Progressive Data Expansion Against Spurious Correlation
Yihe Deng Yu Yang Baharan Mirzasoleiman Quanquan Gu
研究问题:深度学习模型易受虚假特征影响,而非真正与真实标签相关的核心特征。
动机:通过理论分析,探讨了存在虚假特征的非线性卷积神经网络的学习过程,并提出了新的训练算法PDE来提高模型的鲁棒性。
方法:PDE算法从一组平衡的训练数据开始,逐步扩大以促进核心特征的学习。
效果:在合成和真实基准数据集上的实验表明,PDE方法在ResNets和Transformers等模型上表现优越,平均来说,最差组准确率比最先进的方法提高了2.8%,同时训练效率提高了10倍。
Active representation learning for general task space with applications in robotics
Yifang Chen Yingbing Huang Simon Shaolei Du Kevin Jamieson Guanya Shi
研究问题:如何优化预训练语言模型,使其能同时利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Reconciling Competing Sampling Strategies of Network Embedding
Yuchen Yan Baoyu Jing Lihui Liu Ruijie Wang Jinning Li Tarek Abdelzaher Hanghang Tong
研究问题:现有的网络嵌入算法在采样训练过程中,如何平衡捕捉网络拓扑结构与优化相似度度量的问题。
动机:不同的采样策略对网络嵌入的效果有显著影响,但目前尚无方法同时满足所有节点对的区分性和单调性。
方法:提出了一种名为SENSEI的新模型,该模型在顶级K排名列表中无缝实现了区分性和部分单调性。
效果:实验证明,SENSEI在普通网络嵌入任务上优于现有技术。
Test-Time Amendment with a Coarse Classifier for Fine-Grained Classification
Kanishk Jain Shyamgopal Karthik Vineet Gandhi
研究问题:本文旨在解决细粒度分类中错误严重性降低的问题。
动机:由于需要专业知识进行准确标注,细粒度分类具有挑战性。然而,人类在进行粗粒度分类时特别擅长,因为它需要相对较低的专业知识水平。
方法:我们提出了一种名为分层集成(HiE)的新型后处理修正方法,该方法利用标签层次结构,使用粗粒度预测来提高测试时的细粒度分类性能。
效果:在iNaturalist-19和tieredImageNet-H数据集上,我们的方法在平均错误严重性方面显著降低,同时提高了top-1准确率,并在这两个基准测试中实现了新的最先进的结果。此外,我们还研究了该方法在半监督设置中的有效性。随着训练数据减少,我们的方法是显著提高top-1准确率的同时显著降低错误严重性的。
RegBN: Batch Normalization of Multimodal Data with Regularization
MORTEZA GHAHREMANI Christian Wachinger
研究问题:如何有效地整合多源传感器捕获的高维数据,特别是在存在混淆效应和依赖关系的情况下。
动机:由于神经网络在整合多模态数据方面的成功,近年来对集成多源传感器捕获的高维数据的兴趣激增。然而,异构多模态数据的整合带来了重大挑战,因为这种混淆效应和依赖关系引入了不必要的变异性和偏差,导致多模态模型的性能不佳。
方法:本文介绍了一种新的多模态批量归一化方法——RegBN。RegBN使用Frobenius范数作为正则化项来处理不同数据源之间的混淆效应和潜在依赖关系。该方法可以广泛应用于多种模态,并消除了对可学习参数的需求,简化了训练和推理过程。
效果:我们在五个研究领域的八个数据库上验证了RegBN的有效性,涵盖了语言、音频、图像、视频、深度、表格和3D MRI等多种模态。该方法在不同的架构(如多层感知器、卷积神经网络和视觉转换器)中表现出广泛的适用性,能够有效地对多模态神经网络中的低层和高层特征进行归一化。
Algorithm Selection for Deep Active Learning with Imbalanced Datasets
Jifan Zhang Shuai Shao saurabh verma Robert D Nowak
研究问题:如何减少深度学习应用中所需的标注样本数量。
动机:主动学习旨在减少训练深度网络所需的标注示例数量,但其在各种数据集和应用中的实证性能可能会有很大差异。
方法:提出了一种针对深度主动学习的自适应算法选择策略。对于任何未标记的数据集,该(元)算法TAILOR(Thompson主动学习算法选择)会迭代地、自适应地在一组候选主动学习算法中进行选择。
效果:在多类别和多标签应用的大量实验中,TAILOR的效果表明其准确率可与最佳候选算法相媲美或更好。
Neural Image Compression: Generalization, Robustness, and Spectral Biases
Kelsey Lieberman James Diffenderfer Charles Godfrey Bhavya Kailkhura
研究问题:当前缺乏评估和理解神经网络图像压缩(NIC)在真实世界设置中性能的全面数据集和信息工具。
动机:为了填补这一关键空白,本文提出了一个全面的基准测试套件来评估图像压缩方法的分布外(OOD)性能。
方法:通过向流行的CLIC和Kodak基准引入15种损坏,创建了CLIC-C和Kodak-C。然后,提出光谱启发的检查工具以深入了解图像压缩方法引入的错误以及其OOD性能。
效果:对几种经典编解码器和NIC变体进行了详细的性能比较,揭示了挑战我们当前对NIC优势和局限性理解的有趣发现。最后,通过理论分析证实了我们的实证发现,深入探讨了NIC的OOD性能及其对数据光谱性质的依赖性。
In Defense of Softmax Parametrization for Calibrated and Consistent Learning to Defer
Yuzhou Cao Hussein Mozannar Lei Feng Hongxin Wei Bo An
研究问题:如何让机器学习分类器在专家更准确时将决策推迟到专家,以提高安全性和性能。
动机:现有的学习推迟框架的参数化方法存在不校准的问题,需要找到一种既统计一致又具有有效概率估计器的softmax基估计器。
方法:通过分析发现,导致现有文献中不校准和无界估计器的原因是替代损失的对称性,而不是softmax。因此,提出了一种新的统计一致的非对称softmax基替代损失方法,可以产生有效的估计而不会出现无界问题。
效果:对所提出的方法进行了非渐近性质分析,并在基准数据集上对其性能和校准进行了实证验证。
Curriculum Learning for Graph Neural Networks: Which Edges Should We Learn First
Zheng Zhang Junxiang Wang Liang Zhao
研究问题:现有的图神经网络(GNNs)在处理真实世界图中的边时,由于边的难易程度不同,可能导致学习到的表示效果不佳。
动机:为了解决这个问题,本文提出了一种新的课程学习(CL)策略,通过逐渐增加训练中边的复杂性,以提高GNN的学习能力和鲁棒性。
方法:我们的方法根据模型的训练状态,测量边的预期难度,并从简单到复杂逐渐将更多的边纳入训练。
效果:实验结果表明,我们的方法在九个合成数据集和九个真实世界数据集上,都显著提高了学习到的表示的泛化能力和鲁棒性。
A Unified Approach to Count-Based Weakly Supervised Learning
Vinay Shukla Zhe Zeng Kareem Ahmed Guy Van den Broeck
研究问题:如何利用弱标签数据进行学习。
动机:高质量的标签往往非常稀缺,而带有推断性弱标签的未标记数据则更为常见。
方法:开发了一种名为“计数基础的弱监督学习”的统一方法,该方法的核心是能够计算恰好有k个输出被设置为真的概率。
效果:通过在模型分布和基于标签计数的算术约束之间引入计数损失,实现了对模型偏差的有效惩罚。
Towards Personalized Federated Learning via Heterogeneous Model Reassembly
Jiaqi Wang Xingyi Yang Suhan Cui Liwei Che Lingjuan Lyu Dongkuan Xu Fenglong Ma
研究问题:本文旨在解决联邦学习中模型异构性的问题,即客户端拥有不同网络结构模型的问题。
动机:在联邦学习中,由于客户端的模型存在异构性,这给个性化联邦学习带来了挑战。为了解决这个问题,我们提出了一个名为pFedHR的新框架,利用异构模型重组来实现个性化联邦学习。
方法:我们的方法将异构模型个性化问题视为服务器端的一个模型匹配优化任务。此外,pFedHR可以自动、动态地生成信息丰富且多样化的个性化候选模型,而无需人工干预。
效果:实验结果表明,pFedHR在三个数据集上均优于基线方法,无论是在独立同分布还是非独立同分布设置下。此外,pFedHR有效地减少了使用不同公共数据带来的负面影响,并能以自动化的方式动态生成多样化的个性化模型。
Towards Last-Layer Retraining for Group Robustness with Fewer Annotations
Tyler LaBonte Vidya Muthukumar Abhishek Kumar
研究问题:深度神经网络的经验风险最小化(ERM)容易过度依赖虚假相关性,并在少数群体上表现不佳。
动机:最近的深度特征重调(DFR)技术通过简单的最后一层再训练实现了最先进的组鲁棒性,但需要预留出组和类别注释来构建一个组平衡的重调数据集,这在实践中是不可行的。
方法:我们检查了这个不切实际的要求,并发现即使重调数据集只有一小部分最差组数据,最后一层再训练也可以非常有效,无需任何组注释(除了模型选择)。
效果:我们的实验首次证明了即使只使用一小部分训练数据进行最后一层再训练,也可以大大优于在整个数据集上进行经验风险最小化(ERM),无需额外的数据、注释或计算进行训练。进一步的实验表明,模型的不一致可以通过增加最差组数据来提高组鲁棒性,使SELF在视觉和语言任务的四个公认的基准测试中几乎与DFR匹配,而无需任何组注释和使用不到3%的预留类别注释。
Adversarial Examples Are Not Real Features
Ang Li Yifei Wang Yiwen Guo Yisen Wang
研究问题:对抗性示例的成因及其在机器学习中的影响。
动机:对抗性示例的存在一直是一个谜,引起了广泛的关注。现有的理论通过从数据角度解释对抗性脆弱性,但这种解释对人来说相当反直觉。
方法:本文通过引入多种学习范式重新审视了这一理论,发现非鲁棒特征在其他自我监督学习范式(如对比学习、掩蔽图像建模和扩散模型)中的实用性较差。
效果:实验结果表明,非鲁棒特征并不像鲁棒或自然特征那样具有好的可转移性,可能更像是一种范式特定的捷径。同时,我们还发现,自然训练的编码器从鲁棒特征出发在很大程度上也是非鲁棒的。
On the Importance of Feature Separability in Predicting Out-Of-Distribution Error
RENCHUNZI XIE Hongxin Wei Lei Feng Yuzhou Cao Bo An
研究问题:如何准确估计模型在无标签的分布外(OOD)数据上的泛化性能。
动机:尽管先前的方法强调了分布差异与OOD准确性之间的联系,但我们发现大的领域差距并不一定会导致低测试准确性。
方法:我们提出了一种基于特征分散性的数据集级别的得分,以估计分布偏移下的测试准确性。这种方法受到表示学习中特征的理想属性的启发:高类别间分散性和高类别内紧凑性。
效果:我们的分析表明,类别间的分散性与模型的准确性有强烈的相关性,而类别内的紧凑性并不能反映OOD数据上的泛化性能。大量的实验证明,我们的方法在预测性能和计算效率上都表现出优越性。
Differentiable Clustering with Perturbed Spanning Forests
Lawrence Stewart Francis Bach Felipe Llinares-López Quentin Berthet
研究问题:如何将聚类方法融入可端到端训练的管道中,并有效地计算梯度?
动机:现有的聚类方法无法直接融入可训练的管道中,且在高噪声和复杂几何形状的数据集中表现不佳。
方法:提出了一种基于最小权重生成森林随机扰动的可微分聚类方法,可以将聚类纳入可端到端训练的管道中,并有效计算梯度。
效果:该方法在具有挑战性的数据集上表现出色,并在有监督和半监督任务的多个数据集上进行了性能演示。
Retrieval-Augmented Multiple Instance Learning
Yufei CUI Ziquan Liu Yixin CHEN Yuchen Lu Xinyue Yu Xue Liu Tei-Wei Kuo Miguel R. D. Rodrigues Chun Jason Xue Antoni B. Chan
研究问题:现有的弱监督学习方法,多实例学习(MIL),在训练和测试数据来自同一领域时表现优秀,但在跨领域的测试集上性能下降。
动机:针对这一问题,本文提出了检索增强的MIL(RAM-MIL)框架,通过整合最优传输(OT)作为最近邻检索的距离度量标准。
方法:RAM-MIL的开发基于两个关键洞察。首先,理论发现降低输入的内在维度可以最小化注意力基础的MIL中的近似误差。其次,先前的研究强调了输入内在维度与特征合并过程和检索数据的关联。
效果:在全幅图像分类的实证评估中,RAM-MIL框架在同域场景(训练和检索数据在同一领域)和更重要的跨域场景(检索数据来自不同领域)都取得了最先进的性能。此外,使用从最优传输产生的运输矩阵使得检索结果在实例级别可解释,与普通的$l_2$距离相比,并允许人类专家进行可视化。
On the Exploration of Local Significant Differences For Two-Sample Test
Zhijian Zhou Jie Ni Jia-He Yao Wei Gao
研究问题:本文旨在探索两种样本测试中局部显著差异的探索方法。
动机:近年来,两种样本测试受到了广泛关注,并在实际中得到了广泛应用。然而,对局部显著差异的探索仍然有待提高。
方法:我们提出了ME$_\text{MaBiD}$测试,这是一种有效的两种样本测试方法。该方法的基本思想是利用多个马氏核来挖掘局部信息,并引入双向假设进行测试。在探索局部显著差异时,我们首先通过一种新的分割标准将嵌入空间划分为几个矩形区域,这与测试功率和数据相关性有关。然后,我们基于我们的双向掩蔽$p$-值和ME$_\text{MaBiD}$测试来探索局部显著差异。
效果:从理论上讲,我们为ME$_\text{MaBiD}$测试提供了渐近分布和测试功率的下界,并在局部显著差异的探索上控制了家族误差率。最后,我们进行了广泛的实验,以验证我们的方法在两种样本测试和局部显著差异探索上的有效性。
Meta-Learning with Neural Bandit Scheduler
Yunzhe Qi Yikun Ban Tianxin Wei Jiaru Zou Huaxiu Yao Jingrui He
研究问题:本文旨在解决元学习中任务调度策略的优化问题,以提高模型的泛化能力。
动机:现有的任务调度策略主要基于预定义的采样协议或假设的任务-模型关联,这可能导致元模型的性能瓶颈。
方法:本文提出了一种基于上下文Bandits设置的新型任务调度框架BASS,该框架直接优化基于元模型状态的任务调度策略。
效果:通过平衡元学习任务调度中的探索和利用,BASS可以应对元训练早期阶段对任务分布知识有限的问题,同时通过自适应的探索策略为未来的元训练迭代寻找潜在的好处。理论分析和大量实验表明了我们提出的框架的有效性。
Minimax Forward and Backward Learning of Evolving Tasks with Performance Guarantees
Veronica Alvarez Santiago Mazuelas Jose A. Lozano
研究问题:如何有效地处理随时间到达的序列分类任务,特别是在任务相似性逐渐增加的情况下。
动机:对于连续到达的、相似性逐渐增加的序列分类任务,现有的持续学习和概念漂移适应技术往往无法有效应对。
方法:本文提出了增量最小最大风险分类器(IMRCs),该分类器能够有效利用前向和后向学习,并考虑到任务的演变。
效果:实验结果表明,IMRCs在减少样本数量的情况下,可以显著提高性能。
Rethinking Semi-Supervised Imbalanced Node Classification from Bias-Variance Decomposition
Liang Yan Gengchen Wei Chen Yang Shengzhong Zhang Zengfeng Huang
研究问题:本文旨在解决图神经网络(GNN)在图结构数据学习中面临的类别不平衡问题。
动机:现有的方法对于图结构数据的类别不平衡问题处理不足,本研究通过整合不平衡节点分类和偏差-方差分解,建立了一个紧密联系数据不平衡与模型方差的理论框架。
方法:我们利用图增强技术来估计方差并设计了一个正则化项以减轻不平衡的影响。
效果:我们在多个基准测试上进行了详尽的测试,包括自然不平衡数据集和公开划分的类别不平衡数据集,实验结果表明,我们的方法在各种不平衡情况下都优于最先进的方法。这项工作为解决GNN中的不平衡节点分类问题提供了一种新的理论视角。
CLeAR: Continual Learning on Algorithmic Reasoning for Human-like Intelligence
Bong Gyun Kang HyunGi Kim Dahuin Jung Sungroh Yoon
研究问题:本文旨在解决连续学习(CL)中,针对抽象逻辑概念如计数、排序和算术等任务的研究不足。
动机:人类是优秀的持续学习者,他们在真实世界中逐渐学习这些抽象概念。然而,大多数关于连续学习的研究表明,现有的方法主要适用于结构化数据,如图像,而对于抽象逻辑概念的连续学习研究则相对缺乏。
方法:本文首次引入了一种新的算法推理(AR)方法,用于处理抽象概念的连续任务,即CLeAR。该方法提出了一种将输入分布映射到一个共享映射空间的一对多映射,使得不同维度和共享语义的各种任务能够对齐。
效果:在包含15个任务的实验中,从同层级到跨层级的各种层次的乔姆斯基等级,CLeAR不仅实现了接近零遗忘的效果,而且在后续任务中提高了准确率,这一现象被称为反向迁移。而以往专为图像分类设计的连续学习方法则在这方面表现不佳。
Interpretable Prototype-based Graph Information Bottleneck
Sangwoo Seo Sungwon Kim Chanyoung Park
研究问题:如何提高图神经网络(GNNs)的解释性,使其预测过程透明化?
动机:现有的模型解释方法往往从整个图中提取过多信息,导致关键子结构被排除或包含无关子结构,限制了模型在下游任务中的可解释性和性能。
方法:提出一种新的可解释GNN框架——可解释原型基于图信息瓶颈(PGIB),将原型学习纳入信息瓶颈框架,为模型预测提供来自输入图的关键子图。
效果:实验表明,PGIB在预测性能和可解释性方面优于现有方法。
Back-Modality: Leveraging Modal Transformation for Data Augmentation
Zhi Li Yifan Liu Yin Zhang
研究问题:如何利用一种基于模态转换的新型数据增强模式(Back-Modality)进行跨模态的数据增强?
动机:现有的数据增强方法主要针对单一模态,缺乏对跨模态数据的有效处理。
方法:通过将初始模态的数据转换为中间模态,然后再进行反向转换,实现数据的跨模态增强。同时,也可以在中间模态上应用适合的增强技术来进一步增强初始模态的数据。
效果:通过图像分类、情感分类和文本蕴含等任务的全面评估,证明该方法在数据稀缺的情况下能显著提高性能。
Evolving Standardization for Continual Domain Generalization over Temporal Drift
Mixue Xie Shuang Li Longhui Yuan Chi Harold Liu Zehui Dai
研究问题:如何训练一种能适应数据分布逐渐改变的模型,特别是在新领域不断出现的情况下。
动机:现有的领域泛化方法主要适用于离线离散场景,而现实世界中的数据分布可能会因为各种因素(如时间推移)而逐渐改变,且新的领域会不断出现,因此需要更高效的方法来处理。
方法:提出连续领域泛化过时间漂移(CDGTD)的问题定义和演化标准化(EvoS)方法。EvoS通过在多个尺度上学习特征分布的演变模式,并利用生成的统计信息对特征进行标准化,以减轻分布偏移。
效果:在多个真实世界数据集上的实验验证了EvoS的有效性。
Complementary Benefits of Contrastive Learning and Self-Training Under Distribution Shift
Saurabh Garg Amrith Setlur Zachary Chase Lipton Sivaraman Balakrishnan Virginia Smith Aditi Raghunathan
研究问题:本研究旨在探索自训练和对比学习相结合在无标签数据上的有效性,特别是在研究问题:本研究旨在探索自训练和对比学习相结合在无标签数据上的有效性,特别是在分布转移(无监督领域适应)和不存在分布转移(半监督学习)的情况下。
动机:尽管自训练和对比学习这两种技术非常流行且兼容,但它们结合使用的有效性尚未得到充分探索。
方法:通过系统实验调查了这种组合的效果,发现在领域适应设置中,自训练和对比学习提供了显著的互补增益;而在半监督学习设置中,令人惊讶的是,两者的结合并未带来协同效应。
效果:通过对八个分布转移数据集(如BREEDs、WILDS)进行实验,证明组合方法比单独使用任一种方法的准确率高出3-8%。最后,通过简化的分布转移模型进行理论分析,揭示了在某些情况下,即使单独使用其中任何一种方法都会失败,对比学习产生的特征也能为自训练提供良好的初始化,进一步放大收益并实现最佳性能。
Cluster-aware Semi-supervised Learning: Relational Knowledge Distillation Provably Learns Clustering
Yijun Dong Kevin Miller Qi Lei Rachel Ward
研究问题:尽管关系性知识蒸馏在实证上取得了成功并具有实际意义,但其理论解释仍受到限制。
动机:本研究旨在对关系性知识蒸馏(RKD)进行初步的理论理解,重点关注半监督分类问题。
方法:我们将RKD视为由教师模型揭示的种群诱导图上的谱聚类,通过量化预测和真实聚类之间的差异的聚类错误概念,我们说明在种群上进行RKD可以保证低聚类错误。
效果:对于半监督学习,我们进一步通过假设低聚类错误的集群感知半监督学习通用框架展示了RKD的标签效率。最后,我们将数据增强一致性正则化统一到这个集群感知框架中,表明尽管学习准确的聚类有共同的效果,但RKD通过谱聚类促进了"全局"视角,而一致性正则化则通过扩展关注"局部"视角。
Fair Graph Distillation
Qizhang Feng Zhimeng Jiang Ruiquan Li Yicheng Wang Na Zou Jiang Bian Xia Hu
研究问题:如何通过知识图谱和大规模文本语料库训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Direct Diffusion Bridge using Data Consistency for Inverse Problems
Hyungjin Chung Jeongsol Kim Jong Chul Ye
研究问题:扩散模型为基础的反向问题求解器在速度上存在限制,需要从噪声开始进行反向扩散采样。
动机:为了解决这个问题,一些近期的研究尝试通过建立扩散过程,直接连接清洁和损坏的数据,以解决特定的反向问题。
方法:本文首先将这些现有的工作统一命名为直接扩散桥(DDB),并指出虽然这些算法的动机不同,但结果只在于参数的选择。然后,我们提出了一个改进的推理过程,该方法在不需要微调的情况下确保了数据一致性。
效果:我们的方法称为数据一致的DDB(CDDB),它在感知和失真度量方面都优于其不一致的对应方法,从而有效地将Pareto前沿推向最优。我们的方法在两种评估标准上都取得了最先进的结果,展示了其超越现有方法的优势。
Error Discovery By Clustering Influence Embeddings
Fulton Wang Julius Adebayo Sarah Tan Diego Garcia-Olano Narine Kokhlikyan
研究问题:如何发现模型表现不佳的测试样本组,即切片。
动机:为了提高模型的预测准确性和可解释性,需要找出模型在哪些样本上表现不佳。
方法:提出了一种名为InfEmbed的新方法,该方法通过应用K-Means聚类到我们称之为影响嵌入的新型表示上来满足连贯性要求。
效果:实验结果表明,InfEmbed在两个基准测试中优于当前最先进的方法,并在多个案例研究中有效地进行了模型调试。
Understanding Few-Shot Learning: Measuring Task Relatedness and Adaptation Difficulty via Attributes
Minyang Hu Hong Chang Zong Guo Bingpeng Ma Shiguang Shan Xilin CHEN
研究问题:本文旨在通过探索两个关键问题来理解Few-shot学习(FSL):(1)如何量化训练任务和新颖任务之间的关系?(2)这种关系如何影响不同模型在新任务上的适应难度?
动机:FSL的目标是通过利用相关训练任务的经验,用很少的标注样本学习新任务。然而,如何量化任务之间的相关性并理解其对模型适应新任务的影响仍然是一个未解决的问题。
方法:我们提出了任务属性距离(TAD)作为度量任务相关性的一种方法,它通过属性来量化任务之间的关联性。此外,我们还建立了任务相关性和任务适应难度之间的理论联系,并通过推导新任务的泛化误差边界来发现TAD如何度量不同模型在新任务上的适应难度。
效果:实验结果证实了TAD度量能有效量化任务相关性,并能反映不同FSL方法在新任务上的适应难度。我们的代码可以在 https://github.com/hu-my/TaskAttributeDistance 上找到。
Federated Learning with Bilateral Curation for Partially Class-Disjoint Data
Ziqing Fan Ruipeng Zhang Jiangchao Yao Bo Han Ya Zhang Yanfeng Wang
研究问题:本文旨在解决联邦学习中部分不相交数据(PCDD)的问题,即每个客户端只贡献部分类别的样本,这严重挑战了联邦算法的性能。
动机:由于每个客户端只贡献部分类别的样本,局部目标将与全局目标相矛盾,导致局部缺失类别的角度塌陷问题和局部存在类别的空间浪费问题。现有的方法都无法从根本上解决PCDD的挑战,以实现联邦学习双方视角的整体改进。
方法:受不平衡数据上单纯形等角紧框架(ETF)的强大泛化性的启发,我们提出了一种名为FedGELA的新方法,其中分类器被全局固定为单纯形ETF,同时局部适应于个人分布。在全球范围内,FedGELA为所有类别提供公平和平等的歧视,避免分类器的不准确更新,而在局部范围内,它利用了局部缺失类别的空间用于局部存在的类别。
效果:我们在一系列数据集上进行了广泛的实验,证明我们的FedGELA取得了良好的性能(比FedAvg平均提高了3.9%,比最佳基线平均提高了1.5%),并提供了局部和全局收敛保证。
Learning From Biased Soft Labels
Hua Yuan Yu Shi Ning Xu Xu Yang Xin Geng Yong Rui
研究问题:本文旨在研究有偏软标签的有效性,即在教师模型生成的软标签与真实标签存在偏差的情况下,这些软标签是否仍然有效。
动机:知识蒸馏的出现引发了研究者对教师模型生成的软标签中隐藏的“暗知识”的兴趣。然而,现有的理论都隐含地要求软标签接近真实标签。本文则探究了存在偏差的软标签是否仍然有效。
方法:本文提出了两个指标来衡量软标签的有效性,并根据这两个指标提出了适度的条件,以确保有偏软标签学习问题既是分类器一致的,又是经验风险最小化(ERM)可学习的,即使对于大偏差的软标签也可以适用。此外,本文还设计了一种启发式方法来训练技能差但坏的老师(SBTs),这些准确率低于30%的老师可以教学生在CIFAR-10上达到90%以上的准确率,这相当于在原始数据上训练的模型。
效果:实验结果表明,提出的指标能够充分衡量在这个过程中生成的有偏软标签的有效性。此外,本文的理论框架可以适用于阐明弱监督学习范式中的软标签的有效性,包括不完整监督、部分标签学习和带噪声学习。
Does Invariant Graph Learning via Environment Augmentation Learn Invariance?
Yongqiang Chen Yatao Bian Kaiwen Zhou Binghui Xie Bo Han James Cheng
研究问题:如何通过环境增强学习不变的图表示,以实现图上的分布外泛化。
动机:由于获取图环境分区通常代价高昂,因此增强环境信息已成为事实方法。然而,尚未验证增强的环境信息的有效性。
方法:提出了一组最小假设,包括变异充分性和变异一致性,用于可行的不变图学习。然后提出了一个新的框架Graph invAriant Learning Assistant(GALA)。GALA引入了一个需要对图环境变化或分布偏移敏感的辅助模型。辅助模型的正确代理预测可以区分虚假子图中的变化。
效果:在包括DrugOOD的各种图分布偏移的数据集上进行的大量实验证实了GALA的有效性。
Understanding and Improving Feature Learning for Out-of-Distribution Generalization
Yongqiang Chen Wei Huang Kaiwen Zhou Yatao Bian Bo Han James Cheng
研究问题:本文旨在解决模型在面对分布外(OOD)数据时泛化能力差的问题。
动机:虽然一些研究认为模型在学习经验风险最小化(ERM)过程中可能学习到错误的、非不变的特征,但最近的一些研究对此提出了质疑,认为深度网络可能已经学习到了足够好的特征来进行OOD泛化。
方法:本文通过理论研究发现,ERM实际上既学习了错误的也学习了正确的特征,且当错误相关性更强时,ERM倾向于更快地学习错误特征。因此,作者提出特征增强训练(FeAT)方法,通过迭代增强模型来学习新的特征,同时保留已学习的特征,以改善OOD泛化性能。
效果:实验证明,FeAT能有效学习更丰富的特征,从而提高各种OOD目标的性能。
Label Correction of Crowdsourced Noisy Annotations with an Instance-Dependent Noise Transition Model
Hui Guo Boyu Wang Grace Yi
研究问题:如何有效地整合来自不同专家的众包标注,以提高监督学习算法的预测能力。
动机:现有的方法通常使用标注者特定的实例无关噪声转移矩阵来描述每个标注者的标注技能,但这种方法无法准确捕捉实例相关的噪声。
方法:本文在贝叶斯框架下构建了噪声转移模型,并设计了一种新的标签校正算法。具体来说,我们使用具有分层尖峰和平板先验的贝叶斯网络来近似实例相关的噪声转移矩阵。
效果:通过在基准和真实世界数据集上的实验,验证了该方法的有效性。
Joint Data-Task Generation for Auxiliary Learning
Hong Chen Xin Wang Yuwei Zhou Yijian Qin Chaoyu Guan Wenwu Zhu
研究问题:现有的辅助学习方法主要采用重新加权损失的方法处理手动收集的辅助数据和任务,但这些方法在数据收集过程中严重依赖领域知识,这在实际中可能很难实现。
动机:当使用无用的辅助数据和任务时,当前的方法可能会变得无效,甚至对主要任务产生伤害。为了解决这个问题,我们提出了一种联合数据-任务生成框架用于辅助学习(DTG-AuxL)。
方法:我们提出的DTG-AuxL框架包含一个联合生成器和一个双层优化策略。具体来说,联合生成器包含一个特征生成器和一个标签生成器,它们被设计为适用于各种辅助学习场景并具有表现力。双层优化策略优化联合生成器和任务学习模型,其中联合生成器通过主损失的隐式梯度和我们提出的实例正则化的显式梯度在上层进行有效优化,而任务学习模型则通过生成的数据和任务在下层进行优化。
效果:广泛的实验表明,我们提出的DTG-AuxL框架在各种辅助学习场景中始终优于现有方法,特别是在手动收集的辅助数据和任务无用时。
Domain Adaptive Imitation Learning with Visual Observation
Sungho Choi Seungyul Han Woojun Kim Jongseong Chae Whiyoung Jung Youngchul Sung
研究问题:如何通过视觉观察进行领域自适应模仿学习,使目标领域的代理通过观察源领域的专家演示来执行任务。
动机:在实际应用中,接收视觉感官数据的机器人需要通过从不同角度观察其他机器人或观察形状不同的机器人来模仿运动,因此需要进行领域自适应的模仿学习。
方法:我们提出了一种新的框架,用于从输入观察中提取与领域无关的行为特征,以训练学习者,该框架基于双重特征提取和图像重建。
效果:实验结果表明,我们的方法在处理具有领域转移的视觉观察模仿学习方面优于以前的算法。
Navigating the Pitfalls of Active Learning Evaluation: A Systematic Framework for Meaningful Performance Assessment
Carsten Tim Lüth Till J. Bungert Lukas Klein Paul F Jaeger
研究问题:当前主动学习(AL)的研究结果存在矛盾,缺乏系统性和实际性评估,导致实践者对在任务中使用AL感到不确定。
动机:为了解决这一问题,本文提出了一个评估框架,并进行了大规模的实证研究。
方法:通过识别当前文献中的五个关键问题,并设计出一个能够克服这些问题的评估框架。同时,进行大规模的图像分类实验,涵盖了各种数据集、查询方法、AL设置和训练范式。
效果:实证研究结果澄清了文献中的矛盾情况,为实践者提供了实用的建议。
MADG: Margin-based Adversarial Learning for Domain Generalization
Aveen Dayal Vimal K B Linga Reddy Cenkeramaddi C Krishna Mohan Abhinav Kumar Vineeth N. Balasubramanian
研究问题:本文旨在解决深度学习中领域转移的挑战,即如何让模型在训练期间未见过的目标领域中表现良好。
动机:现有的对抗性领域泛化方法主要使用基于0-1损失的$\mathcal{H}\Delta\mathcal{H}$散度度量,而基于间隔损失的散度度量具有信息量大、紧实、实用和可优化高效等优点。
方法:本文提出了一种名为$\textbf{MADG}$的新型对抗性学习领域泛化算法,该算法利用基于间隔损失的散度度量来学习所有源领域的领域不变特征,并通过对抗性训练来很好地泛化到未见过的目标领域。
效果:我们在流行的真实世界领域泛化数据集VLCS、PACS、OfficeHome、DomainNet和TerraIncognita上广泛实验了$\textbf{MADG}$模型。我们在DomainBed的基准测试中评估了所提出的算法,并在所有数据集上都观察到了一致的性能。
Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation
Haoran Chen Xintong Han Zuxuan Wu Yu-Gang Jiang
研究问题:现有的无监督领域适应(UDA)方法大多依赖于共享网络来提取领域不变的特征,但在面对多个源域时,优化这样的网络会涉及更新整个网络的参数,计算成本高且具有挑战性。
动机:受最近在提示学习中取得的进展启发,该研究提出了一种简单而高效的多源UDA框架——多提示对齐(MPA)。
方法:MPA首先为源域和目标域对训练一个单独的提示,通过对比损失最小化领域差距。然后,MPA通过自编码过程对学习到的提示进行去噪,并通过最大化所有重构提示的一致性来对齐它们。此外,研究还表明,自编码过程中获得的子空间可以很容易地推广到一系列精简的目标域,使该方法更适用于实际应用。
效果:大量实验表明,MPA在三个流行的数据集上取得了最先进的结果,在DomainNet上的平均准确率达到了54.1%,令人印象深刻。
Implicit Contrastive Representation Learning with Guided Stop-gradient
Byeongchan Lee Sehyun Lee
研究问题:解决自监督学习中Siamese网络容易塌陷的问题。
动机:现有的对比学习方法在减少负样本数量时不够稳健,而只使用正样本的算法则通过非对称网络架构来防止塌陷。
方法:提出一种利用非对称架构隐式引入对比学习思想的新方法——指导停止梯度法,并将其应用于SimSiam和BYOL等基准算法。
效果:该方法稳定了训练过程并提高了性能,同时在小批量大小和无预测器的情况下也能防止网络塌陷。
Knowledge Distillation Performs Partial Variance Reduction
Mher Safaryan Alexandra Peste Dan Alistarh
研究问题:本文旨在从优化的角度探讨知识蒸馏方法的内在工作机制。
动机:尽管知识蒸馏是一种流行的提升性能的方法,但其背后的机制尚未完全理解。
方法:通过线性和深度线性模型,将知识蒸馏解释为一种新的随机方差减少机制,并对其产生的动态进行详细的收敛分析。
效果:研究发现,知识蒸馏可以降低随机梯度噪声,但可能无法完全消除,这取决于“教师”模型的性质。这一分析强调了对知识蒸馏参数化,特别是关于蒸馏损失权重的考虑的重要性,并在线性模型和深度神经网络上进行了实证验证。
Addressing Negative Transfer in Diffusion Models
Hyojun Go Jinyoung Kim Yunsung Lee Seunghyun Lee Shinhyeok Oh Hyeongdon Moon Seungtaek Choi
研究问题:扩散模型在多任务学习中可能出现负迁移现象,导致某些任务的性能下降。
动机:解决扩散模型在多任务训练中的负迁移问题,提高模型性能。
方法:通过将去噪任务进行聚类,并应用多任务学习方法来减轻负迁移。使用间隔聚类来确保同一集群内的去噪任务具有时间上的接近性。
效果:实验证明该方法可以有效改善扩散模型的样本质量。
Towards a Unified Framework of Contrastive Learning for Disentangled Representations
Stefan Matthes Zhiwei Han Hao Shen
研究问题:如何通过对比学习来发现和分离数据的解释性因素,以获取更好的数据表示。
动机:对比学习是一种有前景的方法,可以学习到能够发现和分离数据解释性因素的数据表示。
方法:本文对对比学习方法进行了理论扩展,放宽了对数据分布的假设,并证明了四种对比损失函数的真实潜在因素的可识别性。
效果:理论发现在几个基准数据集上得到了验证,同时,这些方法的实际局限性也得到了研究。
Convolution Monge Mapping Normalization for learning on sleep data
Theo Gnassounou Rémi Flamary Alexandre Gramfort
研究问题:在信号和生物医学数据(特别是脑电图)的许多机器学习应用中,一个主要挑战是数据在不同受试者、会话和硬件设备之间的变异性。
动机:为了解决这个问题,我们提出了一种新的方法,称为卷积蒙热映射归一化(CMMN),该方法通过过滤信号来调整其功率谱密度(PSD),使其适应训练数据上估计的Wasserstein重心。
方法:CMMN依赖于新的最优传输映射和重心的闭型解,并在不需要重新训练预测模型的情况下为新数据提供个体测试时间适应。
效果:在睡眠EEG数据的数值实验中,CMMN在受试者、会话甚至使用不同硬件收集的数据集之间进行适应时,无论神经网络架构如何,都能带来显著且一致的性能提升。值得注意的是,我们的性能增益与计算量更大的领域适应(DA)方法相当,并且可以与这些方法结合使用以获得更好的性能。
Cross-modal Active Complementary Learning with Self-refining Correspondence
Yang Qin Yuan Sun Dezhong Peng Joey Tianyi Zhou Xi Peng Peng Hu
研究问题:图像-文本匹配在理解和揭示视觉和文本模态之间的潜在对应关系方面越来越受到学术界和工业界的关注,但大多数现有方法都假设训练对是良好对齐的,忽视了普遍存在的标注噪声,即噪声对应(NC),这不可避免地会导致性能下降。
动机:尽管一些方法试图解决这种噪声问题,但仍面临着过度记忆/过拟合和不可靠的NC校正两个挑战,尤其是在高噪声环境下。
方法:我们提出了一种通用的跨模态鲁棒互补学习框架(CRCL),该框架利用一种新的主动互补损失(ACL)和一种有效的自我修正对应校正(SCC)来提高现有方法的鲁棒性。
效果:实验结果表明,我们的CRCL在Flickr30K、MS-COCO和CC152K三个图像-文本基准上,对于合成和真实世界的噪声对应具有优越的鲁棒性。
Contrastive Modules with Temporal Attention for Multi-Task Reinforcement Learning
Siming Lan Rui Zhang Qi Yi Jiaming Guo Shaohui Peng Yunkai Gao Fan Wu Ruizhi Chen Zidong Du Xing Hu Xishan Zhang Ling Li Yunji Chen
研究问题:多任务强化学习中,模块原则被广泛应用以防止任务间冲突导致的性能下降,但研究问题:多任务强化学习中,模块原则被广泛应用以防止任务间冲突导致的性能下降,但大多数现有方法仅在任务级别组合共享模块,忽视了任务内部可能存在的冲突。
动机:本文提出了一种对比性模块与时间注意力(CMTA)的方法,通过对比学习和以比任务级别更细的粒度结合共享模块来解决这些问题。
方法:CMTA通过对比学习约束模块彼此不同,并使用时间注意力在比任务级别更细的粒度上结合共享模块,以减轻任务内部的负转移并提高多任务强化学习的性能和泛化能力。
效果:在Meta-World多任务强化学习基准测试中进行的实验表明,CMTA首次超越了单独学习每个任务,并显著提高了基线的性能。
Class-Distribution-Aware Pseudo-Labeling for Semi-Supervised Multi-Label Learning
Ming-Kun Xie Jia-Hao Xiao Hao-Zhe Liu Gang Niu Masashi Sugiyama Sheng-Jun Huang
研究问题:在半监督多标签学习(SSMLL)中,传统的伪标签方法在处理与多个标签相关联的实例和未知标签数量时遇到困难。
动机:为了克服这些挑战,本文提出了一种名为“类别感知伪标签”(CAP)的新解决方案,以类别感知的方式执行伪标签。
方法:该方法引入了一个包含类别感知阈值的正则化学习框架,有效地控制了每个类别的积极和消极伪标签的分配。
效果:实验结果证实了所估计的类别分布作为可靠近似值的有效性。因此,我们开发了一种类别分布感知的阈值策略,以确保伪标签分布与真实分布的对齐。
Context Shift Reduction for Offline Meta-Reinforcement Learning
Yunkai Gao Rui Zhang Jiaming Guo Fan Wu Qi Yi Shaohui Peng Siming Lan Ruizhi Chen Zidong Du Xing Hu Qi Guo Ling Li Yunji Chen
研究问题:本文旨在解决离线元强化学习(OMRL)中由于训练和测试策略分布不匹配导致的上下文转移问题。
动机:现有的OMRL方法忽视了这个问题,或者试图通过额外的信息来缓解它,这导致任务推断错误,进一步降低了元策略的泛化能力。
方法:本文提出了一种新的方法,称为离线元强化学习的上下文转移减少(CSRO),仅使用离线数据集来解决上下文转移问题。其核心思想是在元训练和元测试阶段都尽量减少策略对上下文的影响。
效果:实验结果表明,CSRO显著减少了上下文转移,提高了泛化能力,在各种具有挑战性的领域中超越了先前的方法。
InstanT: Semi-supervised Learning with Instance-dependent Thresholds
Muyang Li Runze Wu Haoyu Liu Jun Yu Xun Yang Bo Han Tongliang Liu
研究问题:半监督学习(SSL)是机器学习中的基本挑战,如何选择有信息的无标签实例作为伪标签并纳入训练集是关键。
动机:目前SSL方法通常对所有样本使用相同的阈值或对属于某一类的实例使用类别依赖的阈值,忽视了实例级别的信息。
方法:本文提出了一种具有最高自由度的实例依赖阈值研究,通过利用实例级别的模糊性和伪标签的实例依赖错误率,为所有无标签实例设计了一种新的实例依赖阈值函数。
效果:实验证明,这种实例依赖阈值函数为其分配的伪标签的正确性提供了有界的概率保证。
How to Select Which Active Learning Strategy is Best Suited for Your Specific Problem and Budget
Guy Hacohen Daphna Weinshall
研究问题:在主动学习领域,如何为特定情况确定最合适的查询策略仍是一个开放的问题。
动机:不同的查询策略更适合不同的条件和预算约束,因此需要一种能够动态确定最佳策略的方法。
方法:提出了一种基于导数的方法,该方法可以动态地为给定的预算识别最佳的主动学习策略。
效果:通过理论分析和实验结果证明,该方法在不同预算和计算机视觉任务中都表现出了有效性。
Few-Shot Class-Incremental Learning via Training-Free Prototype Calibration
Qi-Wei Wang Da-Wei Zhou Yi-Kai Zhang De-Chuan Zhan Han-Jia Ye
研究问题:现实世界中,新类别的不断出现以及少量标记样本的情况,要求机器学习模型能够增量学习新类别并保持对基础类别的知识。
动机:现有的Few-Shot Class-Incremental Learning(FSCIL)方法存在将新类别的样本错误分类到基础类别的问题,导致新类别的性能较差。
方法:我们提出了一种简单而有效的Training-free calibration(TEEN)策略,通过将新原型(即一类的平均特征)与加权的基原型融合,增强新类别的可分性。
效果:实验结果表明,TEEN不仅在FSCIL的标准基准上表现出色,而且在少次学习场景中比基线方法有显著改进。
PPi: Pretraining Brain Signal Model for Patient-independent Seizure Detection
Zhizhang Yuan Daoze Zhang Yang Yang Junru Chen Yafeng Li
研究问题:如何有效地进行癫痫诊断和治疗的自动癫痫发作检测。
动机:新兴的立体脑电图(SEEG)方法可以提供详细且立体的脑电信息,但在临床场景中建模SEEG将面临不同患者之间的巨大领域转移和不同大脑区域之间剧烈的模式演变等挑战。
方法:提出了一种基于预训练的患者无关癫痫发作检测模型(PPi)。设计了两种新颖的自监督任务,从丰富的SEEG数据中提取丰富信息,同时保留来自不同大脑区域的脑信号的独特特征。然后提出了通道背景减法和大脑区域增强两种技术,有效解决领域转移问题。
效果:大量实验表明,PPi在两个公共数据集和一个我们自己收集的真实世界临床数据集上优于最先进的SOTA基线,证明了PPi的有效性和实用性。最后,可视化分析说明了两种领域泛化技术的合理性。
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models
Yuchao Gu Xintao Wang Jay Zhangjie Wu Yujun Shi Yunpeng Chen Zihan Fan WUYOU XIAO Rui Zhao Shuning Chang Weijia Wu Yixiao Ge Ying Shan Mike Zheng Shou
研究问题:如何有效地利用大规模文本-图像扩散模型进行多概念的分散式定制。
动机:现有的单客户低秩适应(LoRA)在处理多个概念时存在概念冲突和身份丢失的问题,需要一种能够解决这些问题的新方法。
方法:提出了一种新的框架Mix-of-Show,采用嵌入分解的LoRA(ED-LoRA)进行单客户调整和梯度融合以保留单个概念的领域本质并支持理论上无限制的概念融合。
效果:实验证明,Mix-of-Show能够高保真地合成多个定制的概念,包括字符、对象和场景。
A Unified Framework for Rank-based Loss Minimization
Rufeng Xiao Yuze Ge Rujun Jiang Yifan Yan
研究问题:本文旨在提出一种优化等级损失的统一框架,以解决机器学习模型多样化的性能需求。
动机:虽然平均损失被广泛用于训练机器学习模型,但为了应对各种性能要求,等级损失的使用越来越普遍,在许多情况下取代了平均损失。
方法:通过使用邻近交替方向乘子法,提出了一种优化等级损失的统一框架。
效果:实验证明,该算法在温和条件下具有良好的收敛性和收敛速度,并在合成和真实数据集上展示了其有效性和效率。
Active Learning-Based Species Range Estimation
Christian Lange Elijah Cole Grant Van Horn Oisin Mac Aodha
研究问题:如何有效地从有限的实地观察中估计物种的地理范围。
动机:为了解决传统方法在实地观察数量有限的情况下,对物种地理范围估计不准确的问题。
方法:提出了一种新的主动学习方法,将未映射物种的范围模型化为不同物种估计范围的加权组合。通过在大型弱监督社区收集的观察数据上训练模型生成候选范围集,然后开发一种新的主动查询方法,按顺序选择地理位置进行访问,以最大程度地减少未映射物种范围的不确定性。
效果:通过对比现有的主动学习方法和专家推导的一万个物种范围的评价数据集,实验结果表明该方法优于其他主动学习方法,即使只使用部分数据,也能达到端到端训练模型的性能。这突出了通过转移学习的空间表示进行主动学习在物种范围估计中的效用,同时也强调了利用新兴的大型众包数据集的价值,不仅用于建模物种的范围,也用于主动发现它们。
Removing Hidden Confounding in Recommendation: A Unified Multi-Task Learning Approach
Haoxuan Li Kunhan Wu Chunyuan Zheng Yanghao Xiao Hao Wang Zhi Geng Fuli Feng Xiangnan He Peng Wu
研究问题:推荐系统中的训练数据存在选择偏差,这对无偏学习构成了巨大挑战。
动机:尽管已有研究提出了基于用户和项目特征的去偏方法,但忽视了隐藏混杂因素的影响。
方法:本文首先进行理论分析,揭示了在存在隐藏混杂因素的情况下,先前的方法(包括倾向性基础、多任务学习和双层优化方法)可能无法实现无偏学习。然后,我们提出了一种统一的多任务学习方法来消除隐藏混杂因素,该方法使用少量无偏评分来校准从有偏数据中学习到的名义倾向性和名义错误推断。
效果:我们在三个公开的基准数据集上进行了广泛的实验,其中包括一个完全暴露的大型工业数据集,验证了所提出的方法在消除隐藏混杂因素方面的有效性。
Task-Robust Pre-Training for Worst-Case Downstream Adaptation
Jianghui Wang Yang Chen Xingyu Xie Cong Fang Zhouchen Lin
研究问题:如何使预训练模型在各种相关下游任务中表现一致良好。
动机:目前的预训练模型在处理一系列相关下游任务时,其性能可能并不一致。
方法:将上游任务分解为几个具有代表性的子任务,并采用简单的迷你max损失进行预训练。设计一个有效的算法来解决最小最大损失,并在凸设置中证明其收敛性。
效果:实验表明,该方法在大规模自然语言处理和计算机视觉数据集上提高了最坏情况下的下游任务指标。
Unleashing the Power of Graph Data Augmentation on Covariate Distribution Shift
Yongduo Sui Qitian Wu Jiancan Wu Qing Cui Longfei Li JUN ZHOU Xiang Wang Xiangnan He
研究问题:图表示学习中分布偏移的问题日益突出。
动机:现有的策略如不变学习和图增强在处理协变量偏移问题上存在局限性。
方法:提出一种名为对抗性不变增强(AIA)的数据增强策略,通过在训练数据基础上生成新环境并保留原始稳定特征来应对协变量偏移。
效果:大量实验和深入的实证分析表明,该方法具有优越性。
Eliminating Catastrophic Overfitting Via Abnormal Adversarial Examples Regularization
Runqi Lin Chaojian Yu Tongliang Liu
研究问题:单步对抗训练(SSAT)存在灾难性过拟合(CO),导致分类器容易受到多步对抗攻击。
动机:研究者发现SSAT训练的网络生成的对抗样本中,一些异常对抗样本(AAEs)在训练过程中的损失反而减小,这种现象与分类器的扭曲有关。
方法:研究者提出了一种新的方法——异常对抗样本正则化(AAER),通过显式地对AAEs的变化进行正则化,防止分类器扭曲,从而消除CO。
效果:实验证明,该方法可以有效消除CO,并进一步提高对抗鲁棒性,且计算开销很小。
Balance, Imbalance, and Rebalance: Understanding Robust Overfitting from a Minimax Game Perspective
Yifei Wang Liangchen Li Jiansheng Yang Zhouchen Lin Yisen Wang
研究问题:对抗训练在提取鲁棒特征方面是最先进的算法,但存在严重的鲁棒过拟合问题,特别是在学习率衰减后。
动机:通过将对抗训练视为模型训练者和攻击者之间的动态最小最大博弈,解释了这种现象。
方法:分析学习率衰减如何打破最小最大博弈的平衡,并展示这种不平衡会导致由于记忆非鲁棒特征而产生的鲁棒过拟合。
效果:通过大量的实验验证了这种理解,并从两个游戏者的动态角度提供了对鲁棒过拟合的全面看法。进一步提出通过规范训练者的容量或提高攻击强度来重新平衡两个参与者,以减轻鲁棒过拟合。实验表明,提出的ReBalanced Adversarial Training (ReBAT)可以获得良好的鲁棒性,即使在长时间的训练后也不会出现鲁棒过拟合。
Contextually Affinitive Neighborhood Refinery for Deep Clustering
Chunlin Yu Ye Shi Jingya Wang
研究问题:现有的自我监督学习方法在语义相似实例分组方面存在局限性,如局部邻域样本有限,可能无法提供丰富多样的监督信号。
动机:受图像检索中灵活的重排方法启发,提出利用有效的在线重排过程挖掘更多信息丰富的邻居,并鼓励跨视图邻域一致性。
方法:通过引入一种渐进式放松的边界过滤策略来减轻聚类边界附近的固有邻域噪声,该方法可以容易地集成到通用的自我监督框架中。
效果:实验结果表明,该方法在几个流行的基准测试上优于最先进的方法。
Reining Generalization in Offline Reinforcement Learning via Representation Distinction
Yi Ma Hongyao Tang Dong Li Zhaopeng Meng
研究问题:本文旨在解决离线强化学习中分布偏移的问题,即数据集和已学习策略之间的差异可能导致对OOD数据的估计错误。
动机:现有的离线强化学习方法通过设计保守项来防止过拟合,但大部分效果来自于它们对学习表示的影响。因此,作者希望通过改进表示来提高离线强化学习的效果。
方法:提出了一种名为“表示区分”(RD)的新方法,通过明确区分学习策略生成的样本内和OOD状态-动作对的表示来提高离线RL算法的性能。当学习策略反映行为策略且相似样本可能被错误区分时,作者建议基于OOD数据生成器的动态调整机制来防止数据表示崩溃并进一步提高策略性能。
效果:通过对专门设计的基线算法和广泛使用的离线强化学习算法应用RD方法,作者在D4RL数据集的各种连续控制任务上展示了其方法的有效性,超过了几种最先进的离线强化学习方法。
Evaluating Neuron Interpretation Methods of NLP Models
Yimin Fan Fahim Dalvi Nadir Durrani Hassan Sajjad
研究问题:本文旨在解决现有神经解释方法缺乏比较标准的问题,以推动神经网络模型中知识结构的研究。
动机:虽然文献中提出了许多神经解释方法,但该领域缺乏这些方法之间的全面比较。由于缺乏标准化的度量和基准,这阻碍了研究的进展。
方法:为解决这个问题,我们提出了一个基于投票理论的评估框架。我们的假设是,不同方法一致识别出的神经元携带更重要的信息。我们严格地在各种神经解释方法上评估我们的框架。
效果:主要发现包括:i)尽管这些方法在理论上存在差异,但在识别显著神经元时,神经元排名方法共享超过60%的排名;ii)神经解释方法对最后一层表示最敏感;iii)Probeless神经元排名成为最一致的方法。
Empowering Collaborative Filtering with Principled Adversarial Contrastive Loss
An Zhang Leheng Sheng Zhibo Cai Xiang Wang Tat-Seng Chua
研究问题:如何将对比学习(CL)应用于协同过滤(CF)中,以解决现有方法在处理分布外数据、假负例和top-K评估等问题上的不足。
动机:尽管对比学习已在自监督学习任务上取得了显著效果,但在推荐系统中的协同过滤应用仍存在优化空间,如处理分布外数据、假负例和top-K评估等问题。
方法:提出一种针对协同过滤的对抗性InfoNCE损失(AdvInfoNCE),通过以敌对的方式探索和分配每个负实例的难度,并利用精细的难易度感知排名标准来增强推荐器的泛化能力。
效果:在合成和真实世界基准数据集上训练了使用AdvInfoNCE的CF模型,验证了其在处理分布外问题上的有效性,并在理论保证和实证优势上优于大多数对比损失函数,因此建议将其作为推荐系统的标准损失,特别是用于处理分布外任务。
Enhancing Minority Classes by Mixing: An Adaptative Optimal Transport Approach for Long-tailed Classification
Jintong Gao He Zhao Zhuo Li Dan dan Guo
研究问题:如何利用大规模文本语料库和知识图谱训练一种增强的语言表示模型(ERNIE),以同时充分利用词汇、句法和知识信息。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:采用大规模文本语料库和知识图谱来训练ERNIE模型,将KG中的知识与文本语料库进行联合训练,ERNIE能够更好地捕捉语义模式。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
Generate What You Prefer: Reshaping Sequential Recommendation via Guided Diffusion
Zhengyi Yang Jiancan Wu Zhicai Wang Xiang Wang Yancheng Yuan Xiangnan He
研究问题:本文旨在解决序列推荐中存在的两个固有限制,即用户可能会想象一个理想物品并选择与之匹配的潜在物品,以及分类受限于候选池中的噪声或易受负样本监督影响的问题。
动机:目前的序列推荐模型通过学习分类来预测用户对下一个项目的偏好,但这与人类行为可能存在差异,且可能受到噪声或易受负样本监督影响的限制。
方法:本文提出了一种学习生成的范式,通过引导扩散模型DreamRec来实现。对于历史项目序列,它使用Transformer编码器创建指导表示。通过对目标项目进行噪声处理来探索项目空间的底层分布;然后,在历史交互的指导下,去噪过程生成一个理想项目以恢复正项目,从而摆脱负采样并直接描述用户的真实偏好。
效果:通过大量实验和与现有方法的比较,验证了DreamRec的有效性。
Adaptive Normalization for Non-stationary Time Series Forecasting: A Temporal Slice Perspective
Zhiding Liu Mingyue Cheng Zhi Li Zhenya Huang Qi Liu Yanhu Xie Enhong Chen
研究问题:尽管深度学习模型在捕捉序列依赖性方面的能力逐步提高,但由于真实世界数据的非研究问题:尽管深度学习模型在捕捉序列依赖性方面的能力逐步提高,但由于真实世界数据的非平稳性(数据分布随时间快速变化),使得准确预测仍具有挑战。
动机:现有的减少非平稳性的方法通常忽视了输入序列和目标序列的分布差异,并假设同一实例内的所有时间点具有相同的统计特性,这可能导致次优的相对改进。
方法:为此,我们提出了一种新的切片级自适应归一化(SAN)方法,该方法通过消除子序列(局部时间片)而非全局实例的非平稳性,以及使用轻微的网络模块独立地模拟原始时间序列统计属性的演变趋势,来增强时间序列预测能力。
效果:我们在四个常用的预测模型上实例化了所提出的SAN,并在基准数据集上测试了它们的预测结果,以评估其有效性。同时,我们还报告了一些深入分析和理解我们提出的SAN的有趣发现。
CSOT: Curriculum and Structure-Aware Optimal Transport for Learning with Noisy Labels
Wanxing Chang Ye Shi Jingya Wang
研究问题:如何在避免过拟合到被污染标签的同时,训练一个泛化能力强的模型?
动机:现有的方法主要依赖于模型的预测,并独立评估每个样本,没有考虑样本分布的全局或局部结构,这通常会导致识别和修正过程的次优解,最终导致模型过拟合到错误的标签。
方法:本文提出了一种新的最优传输(OT)公式,称为课程和结构感知最优传输(CSOT)。CSOT同时考虑样本的分布间和分布内结构,构建了一个鲁棒的去噪和重新标记分配器。在训练过程中,分配器逐步将最可靠的标签分配给具有最高置信度的样本。
效果:广泛的实验表明,我们的方法优于当前最先进的LNL方法。
Energy-Based Models for Anomaly Detection: A Manifold Diffusion Recovery Approach
Sangwoong Yoon Young-Uk Jin Yung-Kyun Noh Frank C. Park
研究问题:如何利用数据中的低维结构训练能量模型进行异常检测。
动机:现有的能量模型在异常检测任务上的性能有待提高,需要更有效地利用数据中的低维结构信息。
方法:提出一种新的方法——流形投影-扩散恢复(MPDR),首先沿着逼近训练数据集的低维流形对数据点进行扰动,然后训练能量模型以最大化恢复原始数据的概率。训练过程中,通过MCMC生成负样本,但负样本分布集中在流形附近,从而产生高度反映数据相关变化模式的近流形负样本。
效果:实验结果表明,MPDR在各种涉及不同类型数据的异常检测任务中表现出色,包括图像、向量和声学信号等。
Optimal Transport Model Distributional Robustness
Van-Anh Nguyen Trung Le Anh Tuan Bui Thanh-Toan Do Dinh Phung
研究问题:如何训练一种对对抗性例子和数据分布变化具有抵抗力的深度学习模型?
动机:现有的深度学习模型在面对对抗性例子和数据分布变化时较为脆弱。
方法:提出了一种基于最优传输模型空间的分布鲁棒性框架,通过最大化损失来学习最优鲁棒中心模型分布。
效果:理论验证了该框架在不同设置(单一模型、集成模型、贝叶斯神经网络)下的有效性,实验结果显示,相比于基线模型,该方法取得了显著的改进。
SwapPrompt: Test-Time Prompt Adaptation for Vision-Language Models
Xiaosong Ma Jie ZHANG Song Guo Wenchao Xu
研究问题:如何利用预训练的视觉语言模型在未标记的目标领域进行测试时适应。
动机:现有的方法只关注熵优化,性能远低于监督提示适应方法,如CoOp。
方法:提出SwapPrompt框架,采用双重提示范式和交换预测机制,通过对比学习增强在线提示。
效果:实验结果表明,SwapPrompt在ImageNet和其他九个数据集上实现了最先进的测试时适应性能,甚至可以与监督提示适应方法相媲美。
Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models
Beier Zhu Kaihua Tang Qianru Sun Hanwang Zhang
研究问题:本文旨在解决预训练基础模型中的固有偏见问题。
动机:由于预训练数据集的极度不平衡,基础模型往往偏向于频繁出现的语义,导致后续的微调和集成仍然带有偏见。
方法:提出了一种通用对数调整(GLA)方法,通过优化方式进行偏差估计以消除基础模型中的偏见。
效果:GLA方法在各种任务上表现出显著改进,包括ImageNet、11个少样本数据集和长尾分类任务。
Optimal Parameter and Neuron Pruning for Out-of-Distribution Detection
Chao Chen Zhihang Fu Kai Liu Ze Chen Mingyuan Tao Jieping Ye
研究问题:在真实世界场景中部署的机器学习模型,检测分布外(OOD)样本的能力是不可或缺的且具有挑战性。
动机:大多数现有的OOD检测方法集中在探索先进的训练技巧或无需训练的技巧,以防止模型对未知样本产生过于自信的信心分数。这些基于训练的方法需要昂贵的训练成本,并且依赖于并不总是可用的OOD样本,而大多数无需训练的方法不能有效地利用训练数据中的先验信息。
方法:我们提出了一种最优参数和神经元剪枝(OPNP)方法,旨在识别并删除导致过拟合的参数和神经元。主要方法分为两步。第一步,通过在所有训练样本上平均梯度来评估模型参数和神经元的敏感性。第二步,删除灵敏度异常大或接近零的参数和神经元进行预测。
效果:我们在多个OOD检测任务和模型架构上进行了广泛的实验,结果显示,我们提出的OPNP方法始终优于现有方法,优势明显。
Nonparametric Teaching for Multiple Learners
Chen Zhang Xiaofeng Cao Weiyang Liu Ivor Tsang James Kwok
研究问题:本文研究了在非参数迭代教学设置中同时教授多个学习者的问题,其中教师迭代地向学习者提供示例,以加速对目标概念的获取。
动机:当前单学习者教学设置与现实世界中人类教学的场景之间存在差距,教师通常向多个学生传授知识。
方法:我们引入了一个新颖的框架——多学习者非参数教学(MINT)。在MINT中,教师旨在教导多个学习者,每个学习者都专注于学习一个标量值的目标模型。为实现这一目标,我们将问题表述为教授一个向量值的目标模型,并将目标模型空间从单学习者场景中的标量值再生核希尔伯特空间扩展到向量值空间。
效果:实验表明,MINT比重复的单学习者教学提供了显著的教学速度提升,特别是在多个学习者可以相互交流的情况下。最后,我们进行了广泛的实验以验证MINT的实用性和效率。
Towards Accelerated Model Training via Bayesian Data Selection
Zhijie Deng Peng Cui Jun Zhu
研究问题:现实世界中的错误标记、重复或偏置数据可能导致训练时间过长,甚至阻碍模型收敛。
动机:传统的解决方案优先考虑易或难的样本,缺乏同时处理这种多样性的灵活性。
方法:通过利用轻量级的贝叶斯处理方法和基于大规模预训练模型的现成零样本预测器,解决了这些问题。
效果:在具有大量数据噪声和不平衡的在线批量选择场景下,对具有挑战性的基准进行了广泛的实证研究,观察到了比竞争性基线更优越的训练效率。特别是在具有挑战性的WebVision基准上,该方法可以在显著减少训练迭代次数的同时,实现与领先的数据选择方法相当的预测性能。
ATTA: Anomaly-aware Test-Time Adaptation for Out-of-Distribution Detection in Segmentation
Zhitong Gao Shipeng Yan Xuming He
研究问题:现有的OOD检测模型主要关注训练和测试数据集共享相似领域的场景,但在现实世界中,领域转移常常存在并严重影响现有OOD检测模型的准确性。
动机:在现实情况下,领域转移和语义转移同时存在,对OOD检测模型的准确性造成影响。
方法:提出一个双层次OOD检测框架来共同处理领域转移和语义转移。第一层通过利用全局低级别特征来区分图像中是否存在领域转移,第二层通过使用密集的高级别特征图来识别具有语义转移的像素。
效果:在多个OOD分割基准上验证了所提方法的有效性,包括那些存在显著领域转移和不存在领域转移的情况,观察到各种基线模型的性能持续改进。
MoVie: Visual Model-Based Policy Adaptation for View Generalization
Sizhe Yang Yanjie Ze Huazhe Xu
研究问题:在有限视角下训练的视觉强化学习代理在未见过的视角上泛化其学习能力时面临重大挑战,即视图泛化问题。
动机:解决视图泛化问题对于真实世界的机器人应用具有巨大潜力。
方法:我们提出了一种简单而有效的方法,使基于模型的策略能够在测试时成功适应视图泛化,无需任何显式的奖励信号和训练时间的修改。
效果:我们的方法在所有四个场景中都取得了显著的进步,包括来自DMControl、xArm和Adroit的18个任务,相对改进分别为33%,86%和152%。
Partial Label Learning with Dissimilarity Propagation guided Candidate Label Shrinkage
Yuheng Jia Fuchao Yang Yongqiang Dong
研究问题:如何在部分标签学习(PLL)中,从一组候选标签中找出正确的标签。
动机:现有的PLL方法无法有效地从候选标签集中找出正确的标签。
方法:构建一个约束回归模型来捕捉候选标签的置信度,并利用其转置构建二阶相似性矩阵;通过考虑候选标签集的交集的补集,开发语义不相似性矩阵,并通过样本的局部几何结构将初始的不相似关系传播到整个数据集;最后,将提出的模型扩展到核版本,以利用样本的非线性结构,并通过增广拉格朗日乘子法求解。
效果:该方法在10个人工和7个真实世界的部分标签数据集上的表现优于最先进的PLL算法,且有理论保证其有效性。
NPCL: Neural Processes for Uncertainty-Aware Continual Learning
Saurav Jha Dong Gong He Zhao Lina Yao
研究问题:本文旨在解决持续学习(CL)在处理流数据时的效率问题和任务间干扰导致的遗忘问题,以及现有CL模型无法准确测量预测不确定性的问题。
动机:持续学习需要有效地训练深度神经网络以处理流数据,同时限制新任务带来的遗忘效应。然而,学习具有较低任务间干扰的可转移知识是困难的,并且现实世界中CL模型的应用受到其无法准确测量预测不确定性的限制。
方法:提出使用神经过程(NPs)来处理持续学习任务,这是一种将不同任务编码为函数概率分布的元学习器,同时提供可靠的不确定性估计。具体来说,提出了一种基于NP的持续学习方法(NPCL),该方法具有按层次潜在变量模型排列的任务特定模块。通过调整学习的后验分布上的正则化器来减轻遗忘。NPCL的不确定性估计能力也可用于处理持续学习中的任务头/模块推理挑战。
效果:实验表明,NPCL优于以往的持续学习方法。验证了NPCL中不确定性估计在识别新数据和评估实例级模型信心方面的有效性。代码可在https://github.com/srvCodes/NPCL获取。
Model and Feature Diversity for Bayesian Neural Networks in Mutual Learning
Cuong Pham Cuong C. Nguyen Trung Le Dinh Phung Gustavo Carneiro Thanh-Toan Do
研究问题:本文旨在通过深度互学习提高贝叶斯神经网络(BNNs)的性能。
动机:尽管BNNs能提供模型参数的概率分布,实现预测的不确定性量化,但其性能通常低于确定性神经网络。利用互学习可以有效提升同类BNNs的性能。
方法:本文提出了一种新颖的方法,通过深度互学习来提升BNNs的性能。该方法旨在增加网络参数分布和特征分布的多样性,推动同类网络获取不同的输入特性,从而增强互学习的效果。
效果:实验结果表明,与传统的互学习相比,该方法在分类准确率、负对数似然和预期校准误差方面都有显著改进。
On the Stability-Plasticity Dilemma in Continual Meta-Learning: Theory and Algorithm
Qi CHEN Changjian Shui Ligong Han Mario Marchand
研究问题:本文旨在解决连续元学习(CML)中的稳定性和可塑性之间的平衡问题,即如何在避免先前任务的灾难性遗忘的同时,从新任务中学习可泛化的概念。
动机:在处理一系列非独立同分布的任务时,如何有效地积累和利用元知识是连续元学习的主要挑战。
方法:通过控制任务序列的平均超额风险上界来制定CML目标,以反映遗忘和泛化之间的权衡。基于此目标,我们为静态和动态环境引入了一个统一的CML理论框架,并为各种特定于任务的学习算法提供了保证。
效果:我们在合成和真实数据集上的实证评估表明,所提出的理论和算法是有效的。
Adaptive Test-Time Personalization for Federated Learning
Wenxuan Bao Tianxin Wei Haohan Wang Jingrui He
研究问题:如何在没有标签数据的情况下,在测试阶段进行个性化联邦学习。
动机:大多数现有的个性化联邦学习方法都需要测试客户端的标签数据,但在现实世界中这通常是不可用的。
方法:提出了一种新的设置,称为测试时个性化联邦学习(TTPFL),其中客户端无需依赖任何标签数据就可以在测试阶段进行本地全局模型的自适应。
效果:实验结果表明,ATP在处理各种分布偏移,包括标签偏移、图像损坏和领域偏移等方面,优于现有的TTA方法,并在多个数据集和模型架构上表现出色。
Subclass-Dominant Label Noise: A Counterexample for the Success of Early Stopping
Yingbin Bai Zhongyi Han Erkun Yang Jun Yu Bo Han Dadong Wang Tongliang Liu
研究问题:本文研究了被忽视的广泛存在的标签噪声类型——子类主导标签噪声(SDN),并探索了其对深度神经网络训练的影响。
动机:在训练初期,深度神经网络会快速记住SDN中的误标样本,这给使用传统早期停止技术有效选择置信样本带来了挑战。
方法:通过观察发现,长期训练的表示能更好地捕获误标样本的高阶语义,导致相似样本聚集在一起的现象。基于此,提出了一种名为NoiseCluster的新方法,利用长期训练表示的几何结构来识别和纠正SDN。
效果:实验证明,NoiseCluster在合成和真实世界数据集上都优于最先进的基线,强调了在有噪声标签的学习中解决SDN的重要性。
Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning
Changsheng Lv Shuai Zhang Yapeng Tian Mengshi Qi Huadong Ma
研究问题:如何模仿人类的推理能力,从视频和音频输入中推断物体的物理常识。
动机:目前的大部分方法未能充分利用多模态数据的不同特性,模型缺乏因果关系推理能力阻碍了隐含物理知识的推断进展。
方法:提出一种解耦计数器学习方法(DCL),通过解耦序列编码器将视频分解为静态(时间不变的)和动态(时间变化的)因素,并引入反事实学习模块来增强模型的推理能力。
效果:实验表明,该方法改进了基线方法,并取得了最先进的性能。
Self-Weighted Contrastive Learning among Multiple Views for Mitigating Representation Degeneration
Jie Xu Shuo Chen Yazhou Ren Xiaoshuang Shi Heng Tao Shen Gang Niu Xiaofeng Zhu
研究问题:如何在多视图场景中,解决对比学习可能导致的表示退化问题。
动机:在多视图场景中,如果收集到的多个视图具有不一致的语义信息或其表示无法捕获足够的判别性信息,对比学习可能会导致表示退化。
方法:提出一种名为SEM的新框架,即自我加权的多视图对比学习与重建正则化。首先测量成对表示之间的差异,然后最小化相应的自我加权对比损失,使SEM能够自适应地加强有用的成对视图并减弱不可靠的成对视图。同时,通过引入自监督的重建项来规范编码器的隐藏特征,以帮助CL访问数据的足够判别性信息。
效果:实验证明,SEM可以缓解现有CL方法中的表示退化问题,并帮助他们实现显著的性能提升。消融研究也证明了SEM在不同权重策略和重建项选项下的有效性。
Geometry-Aware Adaptation for Pretrained Models
Nicholas Roberts Xintong Li Dyah Adila Sonia Cromp Tzu-Heng Huang Jitian Zhao Frederic Sala
研究问题:如何利用大规模标签空间中的标签间距离信息,对已训练的机器学习模型进行适应,以准确预测新类别或提高零样本预测的性能?
动机:目前的机器学习模型在训练时,其标签只占整个标签空间的一小部分。我们提出一种方法,通过利用标签间的信息来改进模型的预测性能。
方法:我们提出了一种简单方法,将标准的预测规则替换为Fréchet平均数,从而无需额外训练即可可靠地预测新类别或提高零样本预测的性能。
效果:实验结果表明,我们的方法Loki在ImageNet上比SimCLR获得了高达29.7%的相对改进,并且可以扩展到数十万个类别。当没有可用的外部指标时,Loki可以使用从类嵌入中得出的自我指标,并在预训练的零样本模型(如CLIP)上获得10.5%的改进。
D-Separation for Causal Self-Explanation
Wei Liu Jun Wang Haozhao Wang Ruixuan Li Zhiying Deng YuanKai Zhang Yang Qiu
研究问题:本文旨在解决现有NLP模型解释性不足的问题,通过提取输入文本中易于人类理解的部分来增强其可解释性。
动机:传统的最大互信息(MMI)标准可能会受到与原因或目标标签相关的虚假特征的影响。因此,本文提出了一种新的标准——最小条件依赖(MCD)标准,以揭示因果关系。
方法:通过最小化未选择的输入部分和目标标签之间的依赖性(使用KL散度作为简单的度量),迫使所有导致标签的原因都被选中。
效果:实验结果表明,MCD相较于先前最先进的基于MMI的方法,F1分数提高了最多13.7%。
Augmentation-Aware Self-Supervision for Data-Efficient GAN Training
Liang Hou Qi Cao Yige Yuan Songtao Zhao Chongyang Ma Siyuan Pan Pengfei Wan Zhongyuan Wang Huawei Shen Xueqi Cheng
研究问题:训练生成对抗网络(GANs)时,由于判别器容易过拟合,使用有限的数据进行训练具有挑战性。
动机:虽然先前提出的可微分增强方法提高了训练GAN的数据效率,但由于忽略了数据转换对标签空间语义变化的影响,这种增强在判别器中引入了对增强的不期望的不变性,可能限制了判别器的表现学习能力,最终影响生成器的生成模型性能。
方法:我们提出了一种新的增强感知的自我监督判别器,该判别器预测增强数据的增强参数。特别是在训练过程中,真实数据和生成数据的预测目标需要被区分开来。我们还通过生成可预测的增强的真实和非假数据,鼓励生成器从自我监督判别器中进行对抗学习。
效果:我们在数据有限的CIFAR-10、CIFAR-100、FFHQ、LSUN-Cat以及五个低数据量数据集上,使用BigGAN和StyleGAN2架构与最先进的方法进行了比较。实验结果表明,我们的方法在训练数据高效的GANs方面显著优于最先进的方法。
Hierarchical Gaussian Mixture based Task Generative Model for Robust Meta-Learning
Yizhou Zhang Jingchao Ni Wei Cheng Zhengzhang Chen Liang Tong Haifeng Chen Yan Liu
研究问题:本文旨在解决元学习中训练和测试任务来自同一分布的问题,以及新任务可能来自未见过的训练分布的问题。
动机:大多数现有的元学习方法都忽视了现实中任务来源的多样性和可能出现的新任务分布。
方法:本文提出了一种基于层次高斯混合任务生成模型(HTGM)的元学习框架。该模型通过学习任务嵌入、拟合任务的混合分布,实现了对新任务密度的评分。
效果:在基准数据集上的大量实验表明,该方法在样本分类和新任务检测方面均具有有效性。
Nominality Score Conditioned Time Series Anomaly Detection by Point/Sequential Reconstruction
Chih-Yu Lai Fan-Keng Sun Zhengqi Gao Jeffrey Lang Duane S Boning
研究问题:时间序列异常检测由于可能出现的复杂和多样的模式而具有挑战性。
动机:主要困难在于建立时间依赖关系模型以找到上下文异常,同时保持点异常的检测精度。
方法:本文提出了一个用于无监督时间序列异常检测的框架,该框架利用基于点和基于序列的重建模型。基于点的模型尝试量化点异常,基于序列的模型尝试量化点异常和上下文异常。
效果:在观察到的时间点是从标称时间点偏离的两个阶段的组合值的情况下,我们引入了一个由重建误差组合值的比例计算得出的标称性分数。通过进一步整合标称性分数和异常分数,我们得到了诱发异常分数,并在特定条件下从理论上证明了诱发异常分数优于原始异常分数。在多个公共数据集上的广泛研究表明,所提出的框架在时间序列异常检测方面优于大多数最先进的基线。
On the Powerfulness of Textual Outlier Exposure for Visual OoD Detection
Sangha Park Jisoo Mok Dahuin Jung Saehyung Lee Sungroh Yoon
研究问题:如何成功检测出分布外(OoD)数据,以确保神经网络的安全部署。
动机:神经网络在OoD数据上输出过于自信的预测,使得仅通过预测结果难以确定数据的OoD性质,这是OoD检测的主要挑战之一。
方法:提出一种新颖的文本异常暴露方法,借鉴视觉语言预训练的最新进展,将图像领域的真实或虚拟异常替换为等价的文本异常,并提出了生成优选文本异常的各种方式。
效果:实验证明,生成的文本异常在大规模OoD和困难OoD基准测试上取得了有竞争力的性能。同时,对文本异常进行了实证分析,提供了设计有利文本异常的主要标准:接近分布、描述性和包含视觉语义。
S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist Captions
Sangwoo Mo Minkyu Kim Kyungmin Lee Jinwoo Shin
研究问题:如何改善在专业领域,如遥感图像,使用视觉语言模型(如CLIP)的效果。
动机:由于专业领域训练样本有限,现有的视觉语言模型在这些领域的应用效果不佳。
方法:提出S-CLIP,一种半监督学习方法,通过额外的未配对图像进行训练。采用两种伪标签策略,一种是结合解决未配对和配对图像之间的最优传输问题的配对图像的标题生成的标题级伪标签;另一种是使用部分标签学习,假设候选标签集进行监督,而不是精确的一个。
效果:实验证明,S-CLIP显著提高了仅使用少量图像-文本对的专业领域的模型性能,例如在遥感、时尚、科学图表和漫画等领域,S-CLIP将零射分类的性能提高了10%,图像-文本检索的性能提高了4%。
Towards Semi-Structured Automatic ICD Coding via Tree-based Contrastive Learning
Chang Lu Chandan K. Reddy Ping Wang Yue Ning
研究问题:如何利用有限的、受隐私保护的医疗数据,以及由于医生写作习惯和患者研究问题:如何利用有限的、受隐私保护的医疗数据,以及由于医生写作习惯和患者病理特征不同导致的临床笔记高变异性,进行国际疾病分类(ICD)的自动编码。
动机:尽管使用了最先进的自然语言处理技术,但由于数据有限和临床笔记的高变异性,现有的ICD编码模型仍面临挑战。
方法:我们研究了临床笔记的半结构化特性,并提出了将其分割成部分的自动算法。为了解决现有ICD编码模型在有限数据上的差异性问题,我们引入了一种基于树编辑距离的软多标签相似度度量的对比预训练方法。此外,我们还设计了一种掩蔽部分的训练策略,使ICD编码模型能够定位到与ICD代码相关的部分。
效果:大量的实验结果表明,我们提出的训练策略有效地提高了现有ICD编码方法的性能。
A Novel Approach for Effective Multi-View Clustering with Information-Theoretic Perspective
Chenhang Cui Yazhou Ren Jingyu Pu Jiawei Li Xiaorong Pu Tianyi Wu Yutao Shi Lifang He
研究问题:现有的多视角聚类方法主要关注获取一致信息,但往往忽视了多个视角之间冗余信息的问题。
动机:为了解决这一问题,本文提出了一种新的方法,称为充分多视角聚类(SUMVC)。
方法:该方法由两部分构成。首先,我们开发了一种简单可靠的多视角聚类方法SCMVC(简单一致多视角聚类),该方法采用变分分析生成一致信息。其次,我们提出了一种充分的表示下界来增强一致信息并减少视图之间的不必要信息。
效果:通过基于贝叶斯误差率的理论分析和在多个多视角数据集上的实验,证明了SUMVC的优越性能。
Contrast Everything: A Hierarchical Contrastive Framework for Medical Time-Series
Yihe Wang Yu Han Haishuai Wang Xiang Zhang
研究问题:现有的对比学习方法主要关注单一的数据层面,无法充分利用医学时间序列的复杂性。
动机:为了解决这一问题,我们提出了COMET,这是一个创新的分层框架,利用医学时间序列所有固有层次的数据一致性。
方法:我们精心设计的模型系统地捕捉了来自观察、样本、试验和患者四个潜在层次的数据一致性。通过在多个层次上开发对比损失,我们可以学习有效的表示,以自监督的方式保留全面的数据一致性,最大限度地利用信息。
效果:我们在具有挑战性的患者独立设置中进行实验,使用三个不同的数据集(包括用于心肌梗死的心电图信号以及用于阿尔茨海默症和帕金森病的脑电图信号)将COMET与六个基线进行比较。结果显示,COMET在所有数据集上都优于所有基线,特别是在10%和1%标注数据比例的设置下。这些结果强调了我们的框架在推进医学时间序列对比表示学习方法方面的重要影响。
TabMT: Generating tabular data with masked transformers
Manbir S Gulati Paul F Roysdon
研究问题:探索基于变压器的模型在各种应用领域的合成数据生成中的作用。
动机:变压器模型在自然语言处理中的自动回归和屏蔽变压器表现非常有效,同时也在其他领域如视觉中表现出强大的性能。
方法:提出一种新的变压器设计TabMT,用于生成合成的表格数据。TabMT有效地解决了异构数据字段带来的独特挑战,并能够原生处理缺失的数据。
效果:通过改进的屏蔽技术进行生成,并在从极小到极大的表格数据集上展示了最先进的性能。在以隐私为重点的应用中评估TabMT,发现它能够生成高质量的数据,同时实现优越的隐私权衡。
Tools for Verifying Neural Models' Training Data
Dami Choi Yonadav G Shavit David Duvenaud
研究问题:如何验证大型神经网络模型的训练数据来源,以评估其能力和风险。
动机:消费者和监管机构需要能够验证大型神经网络模型的来源,以评估其能力和风险。
方法:引入“训练数据证明”的概念,任何能让模型训练者向验证者证明产生一组模型权重的训练数据的协议。这些协议可以验证用于训练模型的数据量和类型,包括是否在特定的有害或有益的数据源上进行过训练。
效果:实验结果表明,我们的验证程序可以检测到各种攻击,包括所有已知的学习证明文献中的攻击。
Inconsistency, Instability, and Generalization Gap of Deep Neural Network Training
Rie Johnson Tong Zhang
研究问题:如何减小深度学习模型在训练数据和未见过的数据上表现的差异,即泛化差距。
动机:由于深度神经网络的高表达能力,找到能减小泛化差距的解决方案非常重要。
方法:通过理论分析,提出了一个以模型输出的不一致性(inconsistency)和不稳定性(instability)为基础的泛化差距界限,这两个指标可以在未标记的数据上进行估计。并通过实证研究验证了这一理论。
效果:研究发现,不一致性是预测泛化差距的可靠指标,比损失函数的尖锐程度更为准确。同时,降低模型输出的不一致性可以显著提高模型性能。这些结果为现有的一些方法如共蒸馏(co-distillation)和集成学习(ensemble)提供了理论基础。
GNNEvaluator: Evaluating GNN Performance On Unseen Graphs Without Labels
Xin Zheng Miao Zhang Chunyang Chen Soheila Molaei Chuan Zhou Shirui Pan
研究问题:评估图神经网络(GNN)的性能对于实际的GNN模型部署和服务至关重要,因为研究问题:评估图神经网络(GNN)的性能对于实际的GNN模型部署和服务至关重要,因为部署的GNN在对未见过和未标记的测试图进行推理时面临显著的性能不确定性,这是由于训练-测试图分布不匹配造成的。
动机:本文研究了一个新的问题,即GNN模型评估,其目标是通过精确估计特定GNN模型在未标记的未见过图上的性能(如节点分类准确率),来评估在标记和观察到的图上训练的GNN模型的性能。
方法:我们提出了一个两阶段的GNN模型评估框架,包括(1)DiscGraph集的构建和(2)GNNEvaluator的训练和推理。DiscGraph集通过利用GNN输出的潜在节点嵌入和节点类预测的偏差测量函数,捕捉广泛和多样的图数据分布差异。在DiscGraph集的有效训练监督下,GNNEvaluator学习精确估计待评估GNN模型的节点分类准确率,并进行准确的性能评估推理。
效果:我们在真实世界的未见过和未标记的测试图上进行了广泛的实验,证明了我们提出的方法在GNN模型评估上的有效性。
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning
Dami Choi Derrick Xin Hamid Dadkhahi Justin Gilmer Ankush Garg Orhan Firat Chih-Kuan Yeh Andrew M. Dai Behrooz Ghorbani
研究问题:本文研究了多任务学习的优化动态,特别是那些主导着存在显著数据不平衡的一系列任务的情况。
动机:针对具有显著数据不平衡的任务集合,提出了一种简单而有效的在高资源任务上预训练,然后在高/低资源任务混合中进行微调的方法。
方法:通过在高资源任务上预训练,然后对高/低资源任务混合进行微调,来优化多任务学习。
效果:实验证明,这种方法相对于标准的静态权重配置的性能-权衡轮廓实现了一致的改进,并在神经机器翻译(NMT)和多语言语言建模中得到了实证改进。
Invariant Anomaly Detection under Distribution Shifts: A Causal Perspective
João B. S. Carvalho Mengtao Zhang Robin Geyer Carlos Cotrini Joachim M. Buhmann
研究问题:本文旨在通过利用因果关系推理的工具,提高异常检测模型对不同类型分布偏移的鲁棒性。
动机:在分布偏移的限制下,训练样本和测试样本来自同一分布的假设会失效,这对异常检测模型构成了挑战。
方法:首先阐明了确保不变表示的必要统计属性,这对于在领域和协变量偏移下的稳健AD至关重要。然后,从这个属性中推导出一个正则化项,当最小化时,可以实现跨环境的局部分布不变性。
效果:通过对包括六种不同AD方法在内的合成和真实世界任务进行广泛的实验评估,显示出显著改善了分布外性能。在协变量和领域偏移下,使用我们提出的正则化项进行模型优化显示出明显的鲁棒性增强。
A Unified Detection Framework for Inference-Stage Backdoor Defenses
Xun Xian Ganghua Wang Jayanth Srinivasa Ashish Kundu Xuan Bi Mingyi Hong Jie Ding
研究问题:本文旨在开发一种统一的推理阶段检测框架,以防御后门攻击。
动机:后门攻击在训练过程中插入有毒样本,导致模型包含一个隐藏的后门,可以在不影响正常样本性能的情况下触发特定行为。这些攻击难以检测,因为被后门化的模型在被后门触发器激活之前看起来是正常的,使它们特别隐蔽。
方法:我们设计了一个具有可证明误报率或错误分类干净样本概率保证的框架来进行后门攻击的检测。
效果:我们在计算机视觉和自然语言处理基准数据集上对14种不同的后门攻击进行了广泛的评估。实验结果与我们的理论结果一致,显著超越了最先进的防御方法,例如,在对抗高级自适应后门攻击时,我们的检测能力提高了300%。
Passive learning of active causal strategies in agents and language models
Andrew Kyle Lampinen Stephanie C.Y. Chan Ishita Dasgupta Andrew Joo Hun Nam Jane X Wang
研究问题:被动数据中的因果关系和实验性学习有何启示?
动机:尽管被动学习有其局限性,但最近的研究表明,被动训练的语言模型在交互式领域(如工具使用)中取得了成功。
方法:通过模仿专家数据进行训练的代理,可以在测试时间推断和使用从未在训练数据中出现的因果关系链接,并可以对未观察到的新变量集进行实验策略的泛化。
效果:即使在具有高维观测值的复杂环境中,自然语言解释也可以支持从被动数据中泛化出因果关系干预和利用的策略。此外,仅通过被动的下一词预测训练的语言模型,可以从包含解释和推理的少数样本提示中泛化出因果关系干预策略。这些结果突显了被动学习主动因果关系策略的强大能力,并对理解语言模型的行为和能力有重要意义。
Revisiting Scalarization in Multi-Task Learning: A Theoretical Perspective
Yuzheng Hu Ruicheng Xian Qilong Wu Qiuling Fan Lang Yin Han Zhao
研究问题:本文旨在从理论角度探讨标量归一化在多任务学习中是否具有基本优势,特别是在寻找帕累托最优解方面。
动机:近年来,专门化的多任务优化器(SMTOs)在处理多目标优化问题上受到关注,但它们是否优于标量归一化仍存在争议。
方法:本文通过理论研究线性多任务学习模型,分析标量归一化是否能充分探索帕累托前沿。
效果:研究发现,与之前的研究结果相反,标量归一化本质上无法完全探索帕累托前沿,特别是对于那些在多个任务之间找到平衡的帕累托最优解。实验结果证实了这一理论发现,并揭示了SMTOs在寻找平衡解决方案方面的潜力,这是标量归一化无法实现的。
TaskMet: Task-driven Metric Learning for Model Learning
Dishank Bansal Ricky T. Q. Chen Mustafa Mukadam Brandon Amos
研究问题:如何让深度学习模型在保持原有预测性能的同时,更好地适应下游任务?
动机:仅优化预测准确率的模型可能在下游任务上表现不佳。我们提出使用任务损失来学习一个参数化的损失函数来训练模型。
方法:通过实验验证了两种主要设置下的方法:1)涉及投资组合优化和预算分配的决策关注模型学习场景;2)在有干扰状态的嘈杂环境中进行强化学习。
效果:我们的方法在两个主要设置下的实验中都取得了良好的效果,证明了其有效性。
Cal-DETR: Calibrated Detection Transformer
Muhammad Akhtar Munir Salman Khan Muhammad Haris Khan Mohsen Ali Fahad Khan
研究问题:深度神经网络在计算机视觉任务中虽然预测性能出色,但往往过于自信的预测限制了其在许多安全关键应用中的采用和广泛应用。
动机:尽管近期已有一些努力对深度神经网络进行校准,但几乎所有的努力都集中在分类任务上。令人惊讶的是,对于现代基于深度神经网络的对象检测器,特别是检测变换器的校准,却鲜有人关注。
方法:本文提出了一种针对检测变换器的校准机制(Cal-DETR),特别是针对Deformable-DETR、UP-DETR和DINO。我们追求训练时的校准路线,并做出以下贡献:首先,我们提出了一种简单而有效的方法来量化变换器基对象检测器的不确定性;其次,我们开发了一种基于不确定性的日志调制机制,利用不确定性来调制类别日志;最后,我们开发了一种日志混合方法,该方法作为具有检测特定损失的正则化器,并与基于不确定性的日志调制技术相辅相成,以进一步提高校准性能。
效果:我们在三个域内和四个域外场景中进行了广泛的实验。结果证实了Cal-DETR相对于竞争性训练时方法在校准域内和域外检测方面的有效性,同时保持甚至提高了检测性能。我们的代码库和预训练模型可以在\url{https://github.com/akhtarvision/cal-detr}获取。
Active Learning for Semantic Segmentation with Multi-class Label Query
Sehyun Hwang Sohyun Lee Hoyoung Kim Minhyeon Oh Jungseul Ok Suha Kwak
研究问题:提出一种新的主动学习方法用于语义分割。
动机:现有的标注方法在标注时间上效率低下,因此提出了一种新的标注策略,通过查询有信息量的局部图像区域来更高效地进行标注。
方法:设计了一种新的标注策略,对每个局部图像区域进行多类别标签的标注,然后通过两个阶段的训练过程来解决类别模糊的问题。
效果:该方法在Cityscapes和PASCAL VOC 2012数据集上的表现优于之前的方法,同时减少了标注成本。
Language Semantic Graph Guided Data-Efficient Learning
Wenxuan Ma Shuang Li Lincan Cai Jingxuan Kang
研究问题:如何更有效地利用标签中的语义信息来提高数据效率?
动机:尽管现有的深度学习模型在处理少量标注数据时已经取得了显著的效果,但标签中的额外知识尚未得到充分利用。
方法:提出了一种新的数据高效学习方法,该方法通过构建一个由自然语言描述的标签构成的语义图(LSG),并在这个图上训练一个辅助的图神经网络来提取高层次的语义关系,然后利用这个关系来指导主模型的训练。
效果:在图像、视频和音频等多种模态的数据上,该方法在迁移学习和半监督学习等不同场景下都表现出了优越的性能,并且能够加速模型的训练过程。
ProtoDiff: Learning to Learn Prototypical Networks by Task-Guided Diffusion
Yingjun Du Zehao Xiao Shengcai Liao Cees G. M. Snoek
研究问题:解决小样本学习挑战的原型基于元学习技术。
动机:使用简单的平均函数从有限的例子中估计确定性的原型是一个脆弱的过程。
方法:提出ProtoDiff,一种在元训练阶段利用任务引导扩散模型逐渐生成原型的新框架,以提供有效的类别表示。
效果:ProtoDiff在小样本分类任务上取得了新的最先进的性能,证明了其有效捕捉原型分布和提高泛化能力的能力。
Transfer learning for atomistic simulations using GNNs and kernel mean embeddings
John Isak Texas Falk Luigi Bonati Pietro Novelli Michele Parrinello massimiliano pontil
研究问题:如何利用图神经网络(GNNs)和预训练模型,通过迁移学习算法来学习原子间势能。
动机:准确的模型需要大量的训练数据集,而生成参考计算是计算密集型的。为了解决这个问题,我们提出了一种利用GNNs表示化学环境和核均值嵌入的转移学习方法。
方法:我们从在OC20数据集上预训练的GNNs中提取一个特征图,并使用它从催化过程的特定系统数据集中学习势能面。我们的方法通过将化学物种信息纳入内核中得到进一步的增强,从而提高了性能和可解释性。
效果:我们在一系列复杂性不断增加的真实数据集上测试了我们的方法,显示出优秀的泛化和迁移性能,并且比仅依赖GNNs或岭回归的方法以及类似的微调方法有所改进。
A Metadata-Driven Approach to Understand Graph Neural Networks
Ting Wei Li Qiaozhu Mei Jiaqi Ma
研究问题:本研究旨在通过元数据分析,探讨图神经网络(GNN)对图数据集属性的敏感性。
动机:当前关于理解GNN局限性的研究主要采用模型驱动的方法,这种方法依赖于网络科学或图论的启发式和领域知识来模拟GNN的行为,既耗时又具有高度主观性。因此,本研究提出了一种元数据驱动的方法,以分析GNN对图数据属性的敏感性。
方法:通过对不同数据集上GNN性能基准测试的元数据进行多元稀疏回归分析,得出一组显著的数据属性。然后,我们专注于识别出的一个数据属性——度分布,并通过理论分析和控制实验来研究这个属性如何影响GNN的性能。
效果:理论分析发现,度分布更平衡的数据集表现出更好的节点表示线性可分性,从而提高了GNN的性能。在控制实验中,使用具有不同度分布的合成数据集,结果与理论分析一致。总的来说,理论分析和控制实验都验证了提出的元数据驱动方法在识别GNN关键数据属性方面的有效性。
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning
Guozheng Ma Linrui Zhang Haoyu Wang Lu Li Zilin Wang Zhen Wang Li Shen Xueqian Wang Dacheng Tao
研究问题:本研究旨在解决增强视觉强化学习算法样本效率的问题,并探索数据增强(DA)的有效性。
动机:虽然简单的观察变换就能显著提高性能,但目前还不清楚DA的哪些属性使其在实现视觉RL的样本效率方面有效。
方法:通过全面实验评估DA的属性对其效果的影响,提出了新的DA操作和多类型DA融合方案。
效果:实验证明,新提出的方法和操作在DeepMind Control套件和CARLA驾驶模拟器上实现了优于现有最先进技术的样本效率。
SimMMDG: A Simple and Effective Framework for Multi-modal Domain Generalization
Hao Dong Ismail Nejjar Han Sun Eleni Chatzi Olga Fink
研究问题:本研究旨在解决增强视觉强化学习算法样本效率的问题,并探索数据增强(DA)的有效性。
动机:虽然简单的观察变换就能显著提高性能,但目前还不清楚DA的哪些属性使其在实现视觉RL的样本效率方面有效。
方法:通过全面实验评估DA的属性对其效果的影响,提出了新的DA操作和多类型DA融合方案。
效果:实验证明,新提出的方法和操作在DeepMind Control套件和CARLA驾驶模拟器上实现了优于现有最先进技术的样本效率。
ALIM: Adjusting Label Importance Mechanism for Noisy Partial Label Learning
Mingyu Xu Zheng Lian Lei Feng Bin Liu Jianhua Tao
研究问题:本文旨在解决弱监督学习中的一种重要分支——有噪声的部分标签学习(noisy PLL)的问题。
动机:与部分标签学习不同,有噪声的部分标签学习允许真实标签不在候选标签集中,但大多数现有方法试图检测噪声样本并估计每个噪声样本的真实标签,而这种检测误差是不可避免的,会在训练过程中不断影响模型优化。
方法:为此,我们提出了一种名为“调整标签重要性机制(ALIM)”的新框架,通过权衡初始候选集和模型输出来减少检测误差的负面影响。ALIM是一种即插即用的策略,可以与现有的部分标签学习方法集成。
效果:我们在多个基准数据集上的实验结果表明,我们的方法在有噪声的部分标签学习上取得了最先进的性能。
Post-processing Private Synthetic Data for Improving Utility on Selected Measures
Hao Wang Shivchander Sudalairaj John Henning Kristjan Greenewald Akash Srivastava
研究问题:现有的私有合成数据生成算法对下游任务不敏感,但终端用户可能有特定的需求,如果不能满足这些需求,可能会大大降低数据的效用。
动机:我们提出了一种后处理方法,通过选择终端用户关心的度量标准来提高合成数据的效用,同时保持强大的隐私保证和数据集质量。
方法:我们的技术涉及从合成数据中进行重采样,以过滤掉不符合所选效用度量标准的样本,使用高效的随机一阶算法找到最优的重采样权重。
效果:通过全面的数值实验,我们证明我们的方法在多个基准数据集和最先进的合成数据生成算法上始终能提高合成数据的效用。
GEX: A flexible method for approximating influence via Geometric Ensemble
SungYub Kim Kyungsu Kim Eunho Yang
研究问题:现有的影响函数(Influence Function, IF)近似方法由于其双线性近似导致的过于简化的影响分布,会抑制具有相对强影响力的样本的表达能力,从而在实际应用中出现性能下降的问题。
动机:为了解决这个问题,我们提出了一种新的IF近似方法,该方法通过消除线性化来缓解双线性约束,并利用针对非线性损失设计的几何集成(Geometric Ensemble, GE)。
方法:我们首先将现有的IF近似方法解释为参数从拉普拉斯近似(Laplace Approximation, LA)采样的两个线性化损失之间的平均关系。然后,我们分别解决了这两个点的问题,即消除线性化和利用针对非线性损失设计的几何集成。
效果:实验结果表明,我们的方法在下游任务上优于现有的IF近似方法,且计算量更小,因此为低复杂度/非线性基于IF的设计提供了新的可行性。
Parameterizing Context: Unleashing the Power of Parameter-Efficient Fine-Tuning and In-Context Tuning for Continual Table Semantic Parsing
Yongrui Chen Shenyu Zhang Guilin Qi Xinnan Guo
研究问题:本文旨在解决连续表格语义解析的问题,即在每个任务中训练一个将自然语言翻译成SQL的解析器,但每个任务只提供有限的训练示例。
动机:传统的方法由于监督不足容易过拟合,同时由于参数更新可能导致灾难性遗忘。尽管最近的进展通过半监督数据增强和保留一些过去的示例部分缓解了这些问题,但其性能仍受限于未监督数据的量和存储的示例数量。
方法:本文提出了一种新颖的方法,通过参数高效微调(PEFT)和上下文调整(ICT)来训练连续表格语义解析器。首先,我们提出了一种任务适应的PEFT框架,通过冻结预训练模型的主干并微调小规模提示,完全避免了灾难性遗忘。在此基础上,我们提出了一种基于教师-学生框架的解决方案。教师使用ICT解决了少量样本的问题,通过展示几个训练示例获取上下文信息。然后,学生利用提出的PEFT框架从教师的输出分布中学习,并将上下文信息压缩并保存到提示中,从而消除了存储任何训练示例的需要。
效果:我们在两个基准测试上的实验评估证实了我们的方法在各种指标上优于常见的少量样本和持续学习基线。
Unsupervised Anomaly Detection with Rejection
Lorenzo Perini Jesse Davis
研究问题:异常检测旨在检测数据中的意外行为,但传统的异常检测器通常使用基于直觉研究问题:异常检测旨在检测数据中的意外行为,但传统的异常检测器通常使用基于直觉的启发式方法来学习决策边界,这在实践中难以验证,可能会降低用户对检测器预测的信任。
动机:为了解决这个问题,我们提出了一种通过允许检测器拒绝高不确定性的预测(学习拒绝)的方法。这需要使用一个能够捕获到决策边界距离的信心度量标准,并设置一个拒绝阈值来拒绝低信心的预测。
方法:在本文中,我们通过设置ExCeeD计算的稳定性度量标准的常数拒绝阈值来解决这些挑战。我们的洞察基于这种度量标准的理论研究。此外,设置一个恒定的阈值会产生强大的保证:我们估计测试拒绝率,并推导出拒绝率和预期预测成本的理论上限。
效果:实验表明,我们的方法优于一些基于度量的方法。
Anchor Data Augmentation
Nora Schneider Shirin Goshtasbpour Fernando Perez-Cruz
研究问题:本文旨在提出一种新的非线性过参数化回归的数据增强算法。
动机:目前的最先进的解决方案依赖于Mixup算法的修改,而我们的数据增强算法借鉴了关于因果关系的文献。
方法:我们扩展了最近提出的分布稳健的锚点回归(AR)方法来进行数据增强。我们的锚点数据增强(ADA)使用AR中修改样本的多个副本来提供更多的训练示例,从而产生更稳健的回归预测。
效果:我们将ADA应用于使用神经网络的线性和非线性回归问题,ADA与最先进的C-Mixup解决方案具有竞争力。
Meta-AdaM: An Meta-Learned Adaptive Optimizer with Momentum for Few-Shot Learning
Siyuan Sun Hongyang Gao
研究问题:本文旨在解决深度学习模型在少量标注样本的任务中面临的挑战,设计了一种元学习优化器Meta-AdaM。
动机:由于少量标注样本的限制,深度学习模型在少量学习任务上面临挑战。元学习已被成功应用于解决这些问题,通过将元学习到的先验知识转移到新任务上。
方法:我们提出了一种元学习的自适应学习率学习器,利用权重更新历史作为输入来预测更合适的学习率以实现快速收敛。此外,我们首次将动量引入到少量学习的优化过程中,通过双前瞻机制实现了类似于多示例设置的快速收敛。
效果:我们在基准数据集上的大量实验结果表明,所提出的Meta-AdaM具有很高的有效性。
How a Student becomes a Teacher: learning and forgetting through Spectral methods
Lorenzo Giambagli Lorenzo Buffoni Lorenzo Chicchi Duccio Fanelli
研究问题:如何通过优化算法,训练出能匹配教师网络能力的学生网络,并找出学生网络中对应的稳定子结构。
动机:在学生网络参数过多的情况下,传统的学习方法无法找出这种稳定的子结构。
方法:提出一种新的优化方案,基于层间信息线性传递的谱表示进行梯度计算,以找出与教师网络复杂度相匹配的学生网络子结构。
效果:通过优化后的子结构,即使对不重要的节点进行剪枝,性能也不会下降到超过对应教师网络大小的阈值,表现出了普适性的二次相变特性。
Binary Classification with Confidence Difference
Wei Wang Lei Feng Yuchen Jiang Gang Niu Min-Ling Zhang Masashi Sugiyama
研究问题:如何在没有精确标签的情况下,利用置信度差异进行弱监督的二分类学习。
动机:传统的弱监督学习方法需要点对点的标签置信度,这在现实世界中可能难以收集和计算。本文提出了一种新的弱监督学习方法,即基于置信度差异的分类方法。
方法:我们提出了一种风险一致的方法来处理这个问题,并证明了估计误差边界可以达到最优收敛速度。我们还引入了一种风险修正方法来缓解过拟合问题,其一致性和收敛速度也得到了证明。
效果:我们在基准数据集和一个真实世界的推荐系统数据集上进行了广泛的实验,验证了我们提出的方法在利用置信度差异的监督信息上的有效性。
Dynamically Masked Discriminator for GANs
Wentian Zhang Haozhe Liu Bing Li Jinheng Xie Yawen Huang Yuexiang Li Yefeng Zheng Bernard Ghanem
研究问题:训练生成对抗网络(GANs)仍是一个具有挑战性的问题,尤其是在判别器适应新生成数据变化的过程中。
动机:由于生成数据的分布在整个训练过程中会发生变化,判别器很难学习到这种变化。
方法:本文从在线持续学习的角度提出了一种新的GANs方法。通过将训练中的生成数据视为数据流,检测判别器是否在新的生成数据的学习中放慢了速度,并强制判别器快速学习新知识。特别是,我们提出了一个新的判别器,它可以自动检测其学习的滞后性,并动态地掩盖其特征,以便判别器可以自适应地学习生成数据的时变分布。
效果:实验结果表明,我们的方法优于最先进的方法。
Combating Bilateral Edge Noise for Robust Link Prediction
Zhanke Zhou Jiangchao Yao Jiaxu Liu Xiawei Guo quanming yao LI He Liang Wang Bo Zheng Bo Han
研究问题:尽管图上的链接预测在图神经网络(GNNs)的发展下取得了巨大成功,但其在边缘噪声下的鲁棒性仍鲜有研究。
动机:我们首先进行实证研究,揭示边缘噪声会双向干扰输入的拓扑结构和目标标签,导致性能下降和表示崩溃。为了解决这个问题,我们提出了一种信息理论指导的原则——鲁棒图信息瓶颈(RGIB),以提取可靠的监督信号并避免表示崩溃。
方法:与基本的信息瓶颈不同,RGIB进一步解耦和平衡了图拓扑、目标标签和表示之间的相互依赖关系,为抵抗双向噪声建立了新的学习目标。我们探索了两种实例化方法,即RGIB-SSL和RGIB-REP,分别利用自监督学习和数据重参数化的优点进行隐式和显式的数据去噪。
效果:我们在六个数据集和三种具有不同噪声场景的GNN上进行了广泛的实验,验证了我们的RGIB实例化的有效性。代码已公开发布在:https://github.com/tmlr-group/RGIB。
Boosting Spectral Clustering on Incomplete Data via Kernel Correction and Affinity Learning
Fangchen Yu Runze Zhao Zhan Shi Yiwen Lu Jicong Fan Yicheng Zeng Jianfeng Mao Wenye Li
研究问题:如何提高在不完整数据上进行谱聚类的效果。
动机:不完整数据会导致亲和度测量不准确,从而降低聚类性能。
方法:提出了一种无需插补的框架,包括一种新的核修正方法和一系列亲和度学习方法。新的核修正方法提高了对不完整数据估计的核矩阵的质量,而亲和度学习方法则利用自适应扩展构建了具有$\ell_p$-范数的内在亲和矩阵。
效果:在基准数据集上,该方法优于现有的数据插补和距离校准技术,为各种真实世界应用中的不完整数据的谱聚类提供了有前景的解决方案。
Understanding Contrastive Learning via Distributionally Robust Optimization
Junkang Wu Jiawei Chen Jiancan Wu Wentao Shi Xiang Wang Xiangnan He
研究问题:本研究旨在揭示对比学习对采样偏差的内在容忍度,并解释其现象。
动机:现有的理论无法充分解释对比学习中负样本可能包含相似语义(如标签)的现象。
方法:通过分布稳健优化(DRO)的视角分析对比学习,得出几个关键洞察:(1) 对比学习实质上是在负采样分布上进行DRO,从而实现在各种潜在分布上的稳健性能,显示出对采样偏差的稳健性;(2) 温度参数τ的设计不仅仅是启发式的,而是作为拉格朗日系数,调整潜在分布集的大小;(3) 建立了DRO和互信息之间的理论联系,为“InfoNCE作为MI的估计”提供了新的证据,并为基于φ-散度的广义互信息提供了新的估计方法。
效果:我们还识别出对比学习的潜力缺陷,包括过度保守和对异常值的敏感性,并提出了一种新颖的调整后的InfoNCE损失(ADNCE)来缓解这些问题。它优化了潜在分布,提高了性能并加速了收敛。在各种领域(图像、句子和图形)的大量实验验证了该提案的有效性。
MEMTO: Memory-guided Transformer for Multivariate Time Series Anomaly Detection
Junho Song Keonwoo Kim Jeonglyul Oh Sungzoon Cho
研究问题:检测现实世界中的多元时间序列数据异常是具有挑战性的,因为存在复杂的时间依赖性和变量间的相关性。
动机:虽然重建基础的深度模型已被广泛用于解决这个问题,但它们仍然存在过度概括的问题,无法提供一致的高性能。
方法:我们提出了MEMTO,一种使用重建基础方法的内存引导变压器。它设计了一个新颖的内存模块,可以学习每个内存项应根据输入数据更新的程度。为了稳定训练过程,我们使用了两阶段训练范式,包括使用K-means聚类初始化内存项。此外,我们还引入了一种基于偏差的二维检测标准,该标准考虑了输入空间和潜在空间来计算异常分数。
效果:我们在五个来自不同领域的实际数据集上评估了我们提出的方法,其平均异常检测F1分数为95.74%,显著优于先前最先进的方法。我们还进行了广泛的实验,以实证验证我们提出的模型的关键组件的有效性。
AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud Dataset
Jiakang Yuan Bo Zhang Xiangchao Yan Botian Shi Tao Chen Yikang LI Yu Qiao
研究问题:如何利用大规模点云数据集训练出具有统一表示的感知模型,以在不同的任务或基准上取得良好效果。
动机:目前的工作主要集中在自我监督的预训练流程上,即在同一基准上进行预训练和微调,这在预训练检查点的绩效可扩展性和跨数据集应用方面存在困难。
方法:首次构建了具有多样化数据分布的大规模预训练点云数据集,并从这种多样化的预训练数据集中学习泛化表示。将点云预训练任务制定为半监督问题,利用少量标记和大量未标记的点云数据生成可以直接应用于许多基线模型和基准的统一骨干表示,从而解耦了与自动驾驶相关的预训练过程和下游微调任务。
效果:在骨干预训练期间,通过增强场景级和实例级的分布多样性,并利用骨干从未知实例中学习的能力,在Waymo、nuScenes和KITTI等一系列下游感知基准上取得了显著的性能提升,适用于PV-RCNN++、SECOND、CenterPoint等不同的基线模型。
Fused Gromov-Wasserstein Graph Mixup for Graph-level Classifications
Xinyu Ma Xu Chu Yasha Wang Yang Lin Junfeng Zhao Liantao Ma Wenwu Zhu
研究问题:现有的图数据增强方法主要关注图信号空间和图结构空间的独立增强,忽视了它们之间的交互作用。
动机:为了解决上述问题,我们提出了一种新的图混合算法FGWMixup,通过在Fused Gromov-Wasserstein(FGW)度量空间中寻找源图的"中点"来优化图间节点匹配策略。
方法:我们通过将问题形式化为最优传输问题,以考虑图结构和信号之间的交互作用。同时,我们还引入了一种放松的FGW求解器,以提高FGWMixup的可扩展性,并加快了收敛速度。
效果:我们在五个数据集上进行了广泛的实验,使用经典的(MPNNs)和先进的(Graphormers)GNN骨干网络,结果表明FGWMixup有效地提高了GNN的泛化能力和鲁棒性。
Revisiting Adversarial Robustness Distillation from the Perspective of Robust Fairness
Xinli Yue Ningping Mou Qian Wang Lingchen Zhao
研究问题:现有的对抗性鲁棒性蒸馏(ARD)方法主要关注学生模型的整体鲁棒性,忽视了关键的鲁棒公平性问题。
动机:学生模型可能在一些数据类别上显示出强大的鲁棒性,而在其他类别上表现出高度的脆弱性,这被称为“桶效应”。
方法:我们提出了公平对抗性鲁棒性蒸馏(Fair-ARD)方法,通过增加困难类别的权重来提高学生模型的鲁棒公平性。
效果:实验表明,Fair-ARD在鲁棒公平性方面优于最先进的ARD方法和现有的鲁棒公平性算法,同时在整体鲁棒性上也略有提升。
Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event Parser
Yung-Hsuan Lai Yen-Chun Chen Yu-Chiang Frank Wang
研究问题:本文旨在探索视听学习中的未充分开发的不同步态设置,即在只有弱标签的情况下识别视频中的视听事件。
动机:目前的研究主要集中在视听学习中的模态对齐设置,而对视听学习中的不同步态设置的研究较少。
方法:本文提出了一种简单、有效且通用的方法,称为视听标签提取(VALOR),以获取训练事件的模态标签。
效果:实验结果表明,通过使用大规模对比预训练模型作为模态教师,可以显著提高注意力基线的平均F-score(Type@AV)。此外,我们的最优模型在所有LLP指标上均取得了新的最先进水平。
SODA: Robust Training of Test-Time Data Adaptors
Zige Wang Yonggang Zhang Zhen Fang Long Lan Wenjing Yang Bo Han
研究问题:如何缓解由于分布变化引起的性能下降,同时考虑到隐私问题使得模型参数无法访问。
动机:现有的方法如零阶优化(ZOO)在训练数据适应器以适应已部署的模型时,由于数据适应器可能对数据特征造成破坏,其效果有限。
方法:我们提出了伪标签鲁棒数据适应(SODA)方法。具体来说,SODA利用高置信度的预测标签作为可靠的标签来优化使用ZOO进行标签预测的数据适应器。对于低置信度预测的数据,SODA鼓励适应器保留数据信息以减轻数据破坏。
效果:实验结果表明,SODA可以在存在分布变化的情况下显著提高已部署模型的性能,而无需访问模型参数。
H-InDex: Visual Reinforcement Learning with Hand-Informed Representations for Dexterous Manipulation
Yanjie Ze Yuyao Liu Ruizhe Shi Jiaxin Qin Zhecheng Yuan Jiashun Wang Huazhe Xu
研究问题:如何通过强化学习解决困难的精细操作任务。
动机:人类手的灵巧性一直是机器人操作的灵感来源,我们提出一个以人的手为信息源的视觉表示学习框架来解决精细操作任务。
方法:我们的框架包含三个阶段:1)使用3D人体手部姿态估计进行预训练表示;2)使用自我监督的关键部位检测进行离线适应表示;3)使用指数移动平均批量归一化进行强化学习。后两个阶段只修改了预训练表示的0.36%的参数,确保了预训练知识的完整性。
效果:我们在12个具有挑战性的精细操作任务上进行了实证研究,发现H-InDex大大超过了强大的基线方法和最近的视觉基础模型用于运动控制。
Transfer Learning with Affine Model Transformation
Shunya Minami Kenji Fukumizu Yoshihiro Hayashi Ryo Yoshida
研究问题:如何利用监督迁移学习提升在数据稀缺情况下的预测能力。
动机:尽管监督迁移学习方法在许多实际应用中取得了成功,但由于缺乏理论基础,其进一步发展受到了阻碍。
方法:本文提出了一种称为仿射模型迁移的通用迁移学习回归方法,遵循期望平方损失最小化原则。
效果:通过几个案例研究,证明了使用仿射型迁移模型分别对跨领域共性和领域特定因素进行建模和估计的实际效益。
PUe: Biased Positive-Unlabeled Learning Enhancement by Causal Inference
Xutao Wang Hanting Chen Tianyu Guo Yunhe Wang
研究问题:本文旨在解决正负样本不平衡的问题,即在有大量未标记数据和少量已标记正例的情况下,如何进行高精度的二分类学习。
动机:现有的基于代价敏感的方法往往假设观察到的正例标签是完全随机选择的,但实际上,真实世界中的正负样本分布往往是不均匀的,存在选择偏差。
方法:本文提出了一种基于因果关系推断理论的PU学习增强(PUe)算法,使用归一化倾向分数和归一化逆概率加权(NIPW)技术重构损失函数,从而获得一致、无偏的分类器估计,提高模型性能。同时,当标签机制未知时,我们提出并研究了使用正则化技术估计深度学习中倾向分数的方法。
效果:实验结果表明,相比于先进的代价敏感PU方法,本文提出的PUe算法在非均匀标签分布数据集上显著提高了分类器的准确性。
Topological RANSAC for instance verification and retrieval without fine-tuning
Guoyuan An Ju-hyeong Seon Inkyu An Yuchi Huo Sung-eui Yoon
研究问题:本文旨在解决现有图像检索方法(如Spatial verification,SP)在缺乏微调集的情况下解释性差的问题。
动机:尽管SP方法广泛使用,但其依赖于空间模型和假设平面结构以及忽视特征间拓扑关系等问题,限制了其性能。
方法:本文提出了一种创新的技术,将RANSAC过程中的空间模型替换为拓扑模型,并引入仿生扫视和中央凹函数来验证特征间的拓扑一致性。
效果:实验结果表明,该方法显著优于SP,并在非微调检索中实现了最先进的性能。同时,当与微调特征结合使用时,可以进一步提升性能。此外,该方法保持了高解释性和轻量级特性,为各种实际应用提供了实用且灵活的解决方案。
Regularizing Neural Networks with Meta-Learning Generative Models
Shin'ya Yamaguchi Daiki Chijiwa Sekitoshi Kanai Atsutoshi Kumagai Hisashi Kashima
研究问题:本文旨在改善深度学习中生成性数据增强的方法。
动机:生成性数据增强利用生成模型产生的合成样本作为小数据集设置中的额外数据集进行分类,但其中的关键挑战是合成数据包含的无信息样本会降低准确性。
方法:本文提出了一种名为“元生成正则化”(MGR)的新型生成性数据增强策略。为了避免生成性数据增强的性能下降,MGR使用合成样本来正则化特征提取器,而不是训练分类器。这些合成样本通过元学习动态确定,以最小化验证损失。
效果:实验表明,MGR特别在数据集较小时有效,并在测试准确性上稳定地超过基线高达7个百分点。
StableFDG: Style and Attention Based Learning for Federated Domain Generalization
Jungwuk Park Dong-Jun Han Jinho Kim Shiqiang Wang Christopher Brinton Jaekyun Moon
研究问题:现有的联邦学习算法假设训练(源领域)和测试(目标领域)的数据分布相同,但实际中经常出现领域转移的问题。
动机:由于每个客户端的局部数据集中样本/领域的缺乏,现有的领域泛化算法在联邦设置中面临基本挑战。
方法:本文提出了一种基于风格和注意力的学习策略StableFDG,用于实现联邦域泛化。首先,通过风格基础学习,使每个客户端在其局部数据集中探索超越原始源领域的新风格,提高基于提出的风格共享、转换和探索策略的领域多样性。其次,引入了一种基于注意力的特征突出器,捕捉同一类别数据样本特征之间的相似性,并强调重要/共同特征,以更好地学习数据贫乏的联邦环境中每个类别的领域不变特性。
效果:实验结果表明,StableFDG在各种领域泛化基准数据集上优于现有基线,证明了其有效性。
Synthetic-to-Real Pose Estimation with Geometric Reconstruction
Qiuxia Lin Kerui Gu Linlin Yang Angela Yao
研究问题:如何将基于合成数据的模型适应到真实世界的目标领域,特别是在只有无标签数据的情况下。
动机:获取标注数据(特别是对于新的部署)既昂贵又耗时。
方法:提出一种重构策略作为伪标签的补充,用于合成到真实的领域适应。通过根据预测的关键部位几何变换基础图像来生成驱动图像,并施加重构损失以精炼预测结果。
效果:在四个大规模的手部和人体真实世界数据集上,该方法比之前最先进的方法提高了8%的PCK,尤其在指尖和头部等端点上,PCK分别提高了7.2%和29.9%。
Recasting Continual Learning as Sequence Modeling
Soochan Lee Jaehyeon Son Gunhee Kim
研究问题:本文旨在将机器学习的两个重要领域——持续学习与序列建模建立紧密联系。
动机:提出将持续学习形式化为一个序列建模问题,使得先进的序列模型能够用于持续学习。
方法:采用元持续学习(MCL)框架,在多个持续学习阶段上对序列模型进行元级训练。
效果:实验结果表明,序列模型可以成为通用MCL的有吸引力的解决方案。
NICE: NoIse-modulated Consistency rEgularization for Data-Efficient GANs
Yao Ni Piotr Koniusz
研究问题:生成对抗网络(GANs)在图像合成方面具有强大的功能,但需要大量的训练数据,这往往是昂贵且难以获取的。
动机:有限的数据会影响GANs,导致判别器过拟合和训练不稳定。
方法:本文提出了一种名为Noise-modulated Consistency rEgularization (NICE)的新方法来克服这些挑战。该方法通过向判别器引入自适应乘性噪声来调制其潜在特征。
效果:实验结果表明,这种调制有效地防止了判别器过拟合,提高了GAN的稳定性。在CIFAR-10、CIFAR-100、ImageNet和FFHQ等数据集上,NICE在有限数据训练和低样本生成任务中取得了最先进的结果。
Data-Informed Geometric Space Selection
Shuai Zhang Wenqi Jiang
研究问题:本文旨在解决几何表示学习中的核心挑战,即如何将内在的几何偏见与数据的基本结构对齐。
动机:现有的方法严重依赖于对数据结构的启发式假设来决定采用哪种几何类型,这往往导致次优的性能。
方法:本文通过一种数据驱动的策略自动化对齐过程,具体来说,使用了稀疏的门控机制,使得每个输入数据点可以选择K个几何空间,这些空间来自具有N个不同几何形状的空间池(其中K
效果:实验结果表明,这种方法可以在没有人工干预的情况下有效地对齐数据和空间,并在真实世界的任务上进一步提高性能,展示了其在激发几何表示的表达能力和实用性方面的潜力。
Augmentation-free Dense Contrastive Distillation for Efficient Semantic Segmentation
Jiawei Fan Chao Li Xiaolong Liu Meina Song Anbang Yao
研究问题:近年来,基于对比学习的 distillation 方法在图像分类和目标检测任务上取得了显著成果,但在语义分割方面的研究较少。
动机:现有的语义分割方法主要依赖于数据增强和内存缓冲,这在处理需要保留高分辨率特征图进行密集像素级预测的语义分割任务时,会导致计算资源需求较大。
方法:提出了一种无数据增强密集对比知识蒸馏(Af-DCD)的新对比学习范式,通过利用巧妙的特征分区策略,并设计一种新的对比学习损失函数,有效地将教师模型学习到的密集和结构化的局部知识转移到学生模型中,同时保持训练效率。
效果:在五个主流基准测试集上的大量实验表明了该方法的有效性。例如,使用 Af-DCD 训练的 DeepLabV3-Res18|DeepLabV3-MBV2 模型在 Cityscapes 数据集上选择 DeepLabV3-Res101 作为教师时,达到了 77.03\%|76.38\% mIOU,创造了新的性能记录。此外,与单独训练的模型相比,Af-DCD 在 Cityscapes|Pascal VOC|Camvid|ADE20K|COCO-Stuff-164K 数据集上分别实现了 3.26\%|3.04\%|2.75\%|2.30\%|1.42\% 的 mIOU 绝对改进。代码可在 https://github.com/OSVAI/Af-DCD 获取。
Towards Free Data Selection with General-Purpose Models
Yichen Xie Mingyu Ding Masayoshi Tomizuka Wei Zhan
研究问题:如何有效地选择最具有信息量的样本,以最大限度地利用有限的注释预算。
动机:现有的数据选择算法,如主动学习方法,通常需要反复进行耗时的模型训练和批量数据选择,效率低下。
方法:本文设计了一种独特的数据选择管道,该管道利用现有的通用模型在无需额外训练或监督的情况下从各种数据集进行单次传递推理来选择数据。提出了一种新的自由数据选择(FreeSel)方法。
效果:实验结果表明,FreeSel在各种计算机视觉任务上均表现出良好的效果,其效率比现有的主动学习方法提高了530倍。
Hierarchical Vector Quantized Transformer for Multi-class Unsupervised Anomaly Detection
Ruiying Lu YuJie Wu Long Tian Dongsheng Wang Bo Chen Xiyang Liu Ruimin Hu
研究问题:本文旨在解决无监督图像异常检测中的问题,即如何区分正常和异常样本。
动机:现有的重建网络在处理多类问题时计算成本高且泛化能力有限。同时,这些网络往往存在"相同捷径"问题,即正常和异常样本都能被很好地恢复,难以区分。
方法:提出了一种分层矢量量化原型导向的Transformer模型。首先,保留典型的正常模式作为离散的图标原型,并利用矢量量化防止模型陷入捷径。然后将矢量量化的图标原型集成到Transformer中进行重建,使异常数据点变为正常数据点。其次,研究了一种精致的分层框架以缓解码本塌陷问题并补充脆弱的正常模式。最后,提出了一种原型导向的最佳传输方法来更好地调整原型并分层评估异常分数。
效果:通过在MVTec-AD和VisA数据集上进行评估,该模型超越了最先进的替代方案,并且具有良好的可解释性。
Architecture Matters: Uncovering Implicit Mechanisms in Graph Contrastive Learning
Xiaojun Guo Yifei Wang Zeming Wei Yisen Wang
研究问题:本文旨在研究图对比学习(GCL)中的各种方法,并发现其与原始视觉对比学习(VCL)方法的不同之处。
动机:通过系统研究各种图对比学习(GCL)方法,我们发现了一些不同于原始视觉对比学习(VCL)方法的常见现象,包括正样本并非必须,负样本对于图分类和特定归一化模块下的节点分类并非必要,数据增强对GCL的影响较小等。
方法:我们揭示了图神经网络在对比学习中的隐含归纳偏置,为上述GCL的有趣特性提供了理论洞察。我们主张更多地关注图学习的独特架构,并在设计GCL方法时考虑其隐含影响。
效果:通过对图对比学习的深入研究,我们提出了针对图学习独特架构的新视角和方法,为未来的研究和应用提供了理论指导。
Effective Robustness against Natural Distribution Shifts for Models with Different Training Data
Zhouxing Shi Nicholas Carlini Ananth Balashankar Ludwig Schmidt Cho-Jui Hsieh Alex Beutel Yao Qin
研究问题:如何评估和比较在不同数据上训练的模型的有效鲁棒性。
动机:现有的有效鲁棒性评估方法通常使用单一的测试集,如ImageNet,来评估在分布内(ID)的准确性,这在评估在不同数据上训练的模型时存在问题。
方法:本文提出了一种新的评估指标,通过控制覆盖所有被评估模型的训练分布的多个ID测试集上的准确率,来评估和比较在不同数据上训练的模型的有效鲁棒性。
效果:新的评估指标为存在不同训练数据的模型提供了更好的有效鲁棒性估计,并可能解释先前使用ImageNet作为唯一ID测试集的CLIP类零样本模型所表现出的惊人有效鲁棒性增益,而这种增益在我们的新评估下会减弱。
Rethinking Conditional Diffusion Sampling with Progressive Guidance
Anh-Dung Dinh Daochang Liu Chang Xu
研究问题:本文解决了扩散生成模型分类器指导中遇到的两个关键挑战,即缺乏多样性和存在对抗性影响。
动机:这些问题通常会导致多样化样本的稀缺或非稳健特征的产生,其根本原因在于分类器指导的机制,其中判别性梯度会强烈推动样本被识别为条件。
方法:我们提出了一种称为渐进式指导的通用分类器指导方法,通过在早期采样步骤中允许相关类的梯度参与共享信息构建来缓解这些问题。在后期采样阶段,我们逐步增强梯度以细化图像中的细节朝向主要条件。
效果:实验结果表明,我们提出的方法进一步提高了图像质量,同时提供了显著的多样性和稳健特征。
Zero-Shot Anomaly Detection via Batch Normalization
Aodong Li Chen Qiu Marius Kloft Padhraic Smyth Maja Rudolph Stephan Mandt
研究问题:如何使异常检测器适应正常数据分布的漂移,特别是在没有“新正常”训练数据可用的情况下。
动机:现有的异常检测技术在面对正常数据分布漂移时存在挑战,需要开发零样本异常检测技术。
方法:提出一种名为自适应中心表示(ACR)的简单有效方法进行零样本批量级异常检测。该方法通过结合批归一化和元训练,训练现成的深度异常检测器(如深度SVDD),使其适应一组相互关联的训练数据分布,实现对未见过异常检测任务的自动零样本泛化。
效果:实验结果表明,该方法在表格数据上实现了首次零样本异常检测结果,并在专业领域的图像数据上超越了现有的零样本异常检测和分割方法。
Dream the Impossible: Outlier Imagination with Diffusion Models
Xuefeng Du Yiyou Sun Jerry Zhu Yixuan Li
研究问题:如何利用辅助异常数据集来规范机器学习模型,进行分布外(OOD)检测和安全预测。
动机:由于数据收集和清理的劳动强度大,自动化生成异常数据一直是人们渴望的替代方案。尽管有这个吸引力,但在高维像素空间生成真实的异常值一直是该领域的一个开放性挑战。
方法:本文提出了一个新的框架Dream-OOD,通过扩散模型在只有分布内(ID)数据和类别的情况下想象出真实的异常值。具体来说,Dream-OOD根据ID数据学习一个文本条件的潜在空间,然后通过潜在空间采样出低概率区域的异常值,这些异常值可以通过扩散模型解码成图像。与先前的工作[16, 95]不同,Dream-OOD可以直接在像素空间中可视化和理解想象的异常值。
效果:通过全面的定量和定性研究了解Dream-OOD的有效性,结果显示,使用Dream-OOD生成的样本进行训练可以显著提高OOD检测性能。
SANFlow: Semantic-Aware Normalizing Flow for Anomaly Detection
Daehyun Kim Sungyong Baik Tae Hyun Kim
研究问题:图像的异常检测是一项挑战,因为异常的稀有性和不可预测性。
动机:现有的基于归一化流(NF)的方法都依赖于其密度估计能力,但它们将所有特征的分布强行转换为单一分布(如单位正态分布),这可能会限制网络区分正常和异常数据的能力。
方法:我们提出在给定图像的每个位置将特征的分布转换为不同的分布。具体来说,我们训练归一化流将正常数据分布映射到具有相同均值但不同方差的分布,并在每个位置进行此操作。为了增强判别能力,我们还训练归一化流将异常数据分布映射到一个均值与正常数据不同的分布,其中异常数据是通过数据增强合成的。
效果:实验结果表明,我们提出的框架能够有效地改善密度建模,从而提高异常检测性能。
C-Disentanglement: Discovering Causally-Independent Generative Factors under an Inductive Bias of Confounder
Xiaoyu Liu Jiaxin Yuan Bang An Yuancheng Xu Yifan Yang Furong Huang
研究问题:本文旨在解决现有表示学习模型在发现生成因素时,未考虑共同原因(即混淆因子)的问题。
动机:大多数现有的工作都假设在发现过程中没有混淆,但实际上混淆因子的存在对发现有语义意义的生成因素有重要影响。
方法:本文提出了一个名为“混淆-解缠”(C-Disentanglement)的框架,这是第一个明确引入混淆因子的先验知识的框架。同时,我们还提出了一种方法来充分识别任何混淆因子先验知识下的因果解缠因素。
效果:通过在合成和真实世界数据集上的大量实验,我们的方法在获取因果解缠特征和处理下游任务方面与各种最先进的基线方法相比具有竞争力。
Label-Only Model Inversion Attacks via Knowledge Transfer
Ngoc-Bao Nguyen Keshigeyan Chandrasegaran Milad Abdollahzadeh Ngai-man Cheung
研究问题:在标签仅MI攻击中,对手只能访问模型的预测标签(硬标签),无法获取置信度分数或其他任何模型信息。
动机:现有的白盒和黑盒设置中已经取得了显著进展,但标签仅MI攻击是最具有挑战性且实际重要的设置,对此的研究非常有限。
方法:我们提出了一种新的标签仅MI攻击方法LOKT,该方法基于从不透明的目标模型向替代模型转移知识的思想。通过这些替代模型,我们可以利用先进的白盒攻击。
效果:我们的实验表明,我们的方法在所有MI基准测试中比现有的最先进的标签仅MI攻击方法提高了超过15%的性能。此外,就查询预算而言,我们的方法也表现良好。这项研究强调了即使暴露最少的信息(即硬标签),ML模型的隐私威胁也在增加。
Better Correlation and Robustness: A Distribution-Balanced Self-Supervised Learning Framework for Automatic Dialogue Evaluation
Peiwen Yuan Xinglin Wang Jiayi Shi Bin Sun Yiwei Li Kan Li
研究问题:如何提高对话评估模型的相关性与鲁棒性。
动机:现有的自我监督学习框架在训练数据中存在不均衡的连贯性分布,导致模型在中等连贯性样本上与人类相关性低,且评分分布不均匀,可能削弱模型的鲁棒性。
方法:提出Better Correlation and Robustness(BCR)框架,通过有效的训练集重构方法提供连贯性平衡的训练信号,并进一步促进对话评估模型的平衡评估能力。同时,提出一种新的损失函数,可以根据核密度估计的评分分布均匀性进行自适应调整。
效果:在17个基准数据集上的全面实验表明,使用BCR的vanilla BERT-base平均性能比最先进的方法提高了11.3%。BCR还表现出强大的泛化能力,可以引导多种最先进的方法实现更好的相关性和鲁棒性。
Representation Learning via Consistent Assignment of Views over Random Partitions
Thalles Santos Silva Adín Ramírez Rivera
研究问题:如何有效地进行视觉特征表示学习。
动机:现有的自监督聚类方法在解决聚类分配问题上需要额外的非可微模块,且训练稳定性差,易产生塌陷解。
方法:提出一种基于随机分区的一致性视图分配(CARP)方法,通过在线梯度下降方式端到端地学习原型,无需额外模块解决聚类分配问题,优化基于原型随机分区的新预训练任务,增强模型并强制视图分配的一致性。
效果:实验表明,CARP的表示适合学习下游任务,并在17个数据集上进行了广泛评估。在迁移学习任务中,CARP的平均性能优于许多训练时间更长的自监督学习方法。
Drift doesn't Matter: Dynamic Decomposition with Diffusion Reconstruction for Unstable Multivariate Time Series Anomaly Detection
Chengsen Wang Zirui Zhuang Qi Qi Jingyu Wang Xingyu Wang Haifeng Sun Jianxin Liao
研究问题:现有的无监督方法主要关注稳定数据,忽视了非平稳环境产生的漂移,可能导致大量误报。
动机:针对真实世界中的不稳定数据,提出一种新的异常检测网络D$^3$R来填补这一空白。
方法:D$^3$R通过分解和重建来解决漂移问题。在分解过程中,利用数据-时间混合注意力动态地分解长周期多元时间序列,克服了局部滑动窗口的限制。在重建过程中,通过噪声扩散控制信息瓶颈,直接重建被污染的数据,避免了瓶颈变化时的重新训练。整个模型可以端到端训练。
效果:在各种真实世界数据集上的广泛实验表明,D$^3$R显著优于现有方法,比之前的SOTA模型平均提高了11%。
Test-time Training for Matching-based Video Object Segmentation
Juliette Bertrand Giorgos Kordopatis-Zilos Yannis Kalantidis Giorgos Tolias
研究问题:视频对象分割(VOS)任务中,如何应对测试时分布变化的问题。
动机:当前最先进的方法依赖于匹配来估计后续帧的分割掩码,但缺乏适应机制,容易受到测试时分布变化的影响。
方法:提出了一种适用于VOS的基于匹配的方法,并探索了针对VOS的测试时训练策略,包括一种基于掩模循环一致性的变体。
效果:实验结果表明,所提出的测试时训练在性能上取得了显著改进,尤其是在sim-to-real场景下,即使只使用单个测试视频,也能恢复大部分通过在真实视频上训练获得的性能增益。同时,引入了DAVIS-C,这是一个增强版的流行DAVIS测试集,具有图像/视频级别的损坏和风格化等极端分布变化。
Causal-structure Driven Augmentations for Text OOD Generalization
Amir Feder Yoav Wald Claudia Shi Suchi Saria David Blei
研究问题:文本分类器对虚假相关性的依赖可能导致部署时泛化能力差,引发在如医疗等安全关键领域的使用担忧。
动机:提出利用因果结构知识引导的反事实数据增强来模拟对虚假特征的干预,以学习更鲁棒的文本分类器。
方法:通过辅助数据匹配例子,采用差异-在-差异方法,并使用大型语言模型表示文本的条件概率。
效果:实验证明,该方法在预测问题中优于基线不变学习算法,提高了分布外(OOD)准确性。
Learning Invariant Molecular Representation in Latent Discrete Space
Xiang Zhuang Qiang Zhang Keyan Ding Yatao Bian Xiao Wang Jingsong Lv Hongyang Chen Huajun Chen
研究问题:现有的分子表示学习方法在面对训练和测试数据来自不同环境时,存在分布外泛化能力差的问题。
动机:为了解决这一问题,我们提出了一种新的学习分子表示的框架,该框架能够展示对分布偏移的不变性和鲁棒性。
方法:我们提出了一种“先编码后分离”的策略,以识别潜在空间中的不变分子特征。此外,我们还引入了残差向量量化模块来防止过拟合训练数据分布,同时保持编码器的表达能力。
效果:我们在18个真实世界的分子数据集上进行了广泛的实验,结果显示,我们的模型在各种分布偏移下,比最先进的基线模型具有更强的泛化能力。
How to Fine-tune the Model: Unified Model Shift and Model Bias Policy Optimization
Hai Zhang Hang Yu Junqiao Zhao Di Zhang Chang Huang Hongtu Zhou Xiao Zhang Chen Ye
研究问题:设计并推导出具有性能改进保证的有效基于模型的强化学习(MBRL)算法是一项挑战,主要由于模型学习和策略优化之间的高度耦合。
动机:许多依赖回报差异来指导模型学习的方法忽视了模型偏移的影响,这可能导致由于过度更新模型而导致的性能下降。其他方法使用性能差分界限来明确考虑模型偏移,但这些方法依赖于固定的阈值来约束模型偏移,导致对阈值的重度依赖和训练过程中的缺乏适应性。
方法:本文从理论上推导出一个可以统一模型偏移和模型偏差的优化目标,然后制定一个微调过程。这个过程自适应地调整模型更新,以获得性能改进的保证,同时避免模型过拟合。基于这些,我们开发了一个直接的算法USB-PO(统一模型偏移和模型偏差策略优化)。
效果:实验结果表明,USB-PO在几个具有挑战性的基准任务上实现了最先进的性能。
Trade-off Between Efficiency and Consistency for Removal-based Explanations
Yifan Zhang Haowei He Zhiquan Tan Yang Yuan
研究问题:当前的解释方法主要采用删除技术来评估单个特征的影响,但这些方法在效率和一致性上存在固有的不协调。
动机:为了解决这一问题,我们提出了解释误差作为衡量效率和一致性的指标,并基于标准多项式基础提出了两种新的算法。
方法:我们建立了不可能三位一体定理,认为解释性、效率和一致性不能同时实现。然后,我们提出了利用解释误差作为衡量效率和一致性的指标,并基于标准多项式基础提出了两种新的算法。
效果:实验结果表明,所提出的方法能够显著降低解释误差,最高可达31.8倍,比替代技术更有效。
Diffusion-SS3D: Diffusion Model for Semi-supervised 3D Object Detection
Cheng-Ju Ho Chen-Hsuan Tai Yen-Yu Lin Ming-Hsuan Yang Yi-Hsuan Tsai
研究问题:如何提高半监督3D物体检测的标注质量?
动机:现有的半监督3D物体检测方法主要采用教师-学生框架和伪标签来利用未标记的点云,但在多样化的3D空间中生成可靠的伪标签仍然具有挑战性。
方法:提出了一种新的半监督3D物体检测方法Diffusion-SS3D,通过扩散模型提升伪标签的质量。具体来说,我们引入噪声以产生损坏的3D物体大小和类别标签分布,然后使用扩散模型作为去噪过程以获取边界框输出。此外,我们将扩散模型整合到教师-学生框架中,以便去噪后的边界框可以用于改进伪标签生成以及整个半监督学习过程。
效果:在ScanNet和SUN RGB-D基准数据集上进行的实验表明,我们的方法在性能上超过了现有方法,达到了最先进的水平。我们还进行了广泛的分析,以了解我们的扩散模型设计如何影响半监督学习的性能。
Fed-CO$_{2}$: Cooperation of Online and Offline Models for Severe Data Heterogeneity in Federated Learning
Zhongyi Cai Ye Shi Wei Huang Jingya Wang
研究问题:联邦学习(FL)是一种分布式学习方法,但数据质量对FL的效果有很大影响,特别是研究问题:联邦学习(FL)是一种分布式学习方法,但数据质量对FL的效果有很大影响,特别是标签分布偏斜和特征偏斜等数据异构性问题。
动机:目前的研究主要关注解决标签分布偏斜问题,而对特征偏斜问题的处理则相对较少。此外,这两种形式的异构性在现有的联邦学习框架中并没有得到很好的统一处理。
方法:我们提出了Fed-CO2,这是一个通用的联邦学习框架,通过在线模型和离线模型之间的合作机制同时处理标签分布偏斜和特征偏斜问题。我们还设计了两种知识转移机制,一种是增强在线和离线模型之间相互学习的客户端内知识转移机制,另一种是提高模型领域泛化能力的客户端间知识转移机制。
效果:实验表明,Fed-CO2在处理标签分布偏斜和特征偏斜问题上优于多种现有的个性化联邦学习算法,无论是单独还是共同考虑这两种问题。
Fast Model DeBias with Machine Unlearning
Ruizhe Chen Jianfei Yang Huimin Xiong Jianhong Bai Tianxiang Hu Jin Hao YANG FENG Joey Tianyi Zhou Jian Wu Zuozhu Liu
研究问题:深度神经网络在现实场景中可能存在偏见行为,如性别、种族等社会偏见。
动机:这种偏见不仅影响模型的稳健性,还可能加剧和扩大社会偏见,对医疗、招聘等领域的自动决策过程构成威胁。
方法:提出一种快速模型去偏方法(FMD),通过反事实概念识别偏差属性,用影响函数量化数据样本的影响,并设计了一种基于机器撤销学习的高效策略来去除训练模型中的偏见。
效果:在Colored MNIST, CelebA, Adult Income等数据集上的实验表明,该方法在减少偏见和降低去偏成本方面优于现有的重训练方法,同时达到或超过先进的分类精度。
Robust Knowledge Transfer in Tiered Reinforcement Learning
Jiawei Huang Niao He
研究问题:本研究旨在解决分层强化学习设置中的问题,即如何将低层(源)任务的知识迁移到高层(目标)任务,以减少后者的探索风险,同时并行解决两个任务。
动机:与以往工作不同,我们不假设低层和高层任务具有相同的动态或奖励函数,而是专注于在没有任务相似性先验知识的情况下进行稳健的知识迁移。
方法:我们提出了一种新的在线学习算法,对于高层任务,根据任务的相似性,它可以在部分状态下实现常数遗憾,当两个任务不相似时,它可以保持接近最优的遗憾;对于低层任务,它可以保持接近最优,而无需做出牺牲。此外,我们还研究了具有多个低层任务的设置,并提出了一种新的转移源选择机制,该机制可以集成所有低层任务的信息,并在更大的状态-动作空间上获得可证明的好处。
效果:实验结果表明,我们的方法在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
All Points Matter: Entropy-Regularized Distribution Alignment for Weakly-supervised 3D Segmentation
Liyao Tang Zhe Chen Shanshan Zhao Chaoyue Wang Dacheng Tao
研究问题:在只有稀疏真实标签的弱监督3D分割任务中广泛使用伪标签进行学习,但现有方法可能会阻碍对未标记数据点的全面利用。
动机:由于在未标记的数据上生成的伪标签存在噪声,这可能导致伪标签与模型预测之间存在显著差异,从而极大地影响模型训练。
方法:我们提出了一种新的学习策略来规范生成的伪标签,有效地缩小伪标签和模型预测之间的差距。具体来说,我们的方法引入了熵正则化损失和分布对齐损失,形成了一个名为ERDA的学习策略。
效果:通过在各种基线和大规模数据集上进行大量实验,结果表明ERDA能够有效地利用所有未标记的数据点进行学习,并在不同设置下实现最先进的性能。
FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals in Factorized Orthogonal Latent Space
Shengzhong Liu Tomoyoshi Kimura Dongxin Liu Ruijie Wang Jinyang Li Suhas Diggavi Mani Srivastava Tarek Abdelzaher
研究问题:本文旨在提出一种新的对比学习框架,用于通过自我监督训练从多模态时间序列传感信号中提取全面的特征。
动机:现有的多模态对比框架主要依赖于感觉模态之间的共享信息,但没有明确考虑对理解底层传感物理至关重要的模态独占信息。此外,时间序列的对比框架尚未适当处理时间信息的局部性。
方法:FOCAL通过以下方式解决了这些挑战:首先,对于多模态时间序列,它将每个模态编码为由共享特征和私有特征组成的因子化潜在空间,这两者是正交的。共享空间通过模态匹配目标强调跨感觉模态一致的特征模式。相反,私有空间通过变换不变目标提取模态独占信息。其次,我们提出了一种模态特征的时间结构约束,使得相邻时间样本之间的距离不大于远离的样本。
效果:在四个多模态传感数据集上进行了广泛的评估,使用两种主干编码器和两种分类器来证明FOCAL的优势。它在下游任务中始终优于最先进的基线,在不同的标签可用比例下都有明显优势。代码和自行收集的数据集可在https://github.com/tomoyoshki/focal获取。
A Bounded Ability Estimation for Computerized Adaptive Testing
Yan Zhuang Qi Liu GuanHao Zhao Zhenya Huang Weizhe Huang Zachary Pardos Enhong Chen Jinze Wu Xin Li
研究问题:如何提高计算机化自适应测试(CAT)的能力估计准确性。
动机:现有的CAT方法没有明确针对能力估计的准确性,因为没有足够的响应来保证估计值能收敛到真实值。
方法:通过分析估计的统计特性,提出了一个基于全响应的问题库的能力估计理论近似值。基于此,提出了一个数据汇总的有限能力估计CAT(BECAT)框架,该框架选择与全响应梯度紧密匹配的问题子集。设计了一个期望梯度差近似的简单贪婪选择算法,并给出了其能力估计的严谨理论和误差上限保证。
效果:实验表明,使用该方法平均可以减少15%的问题数量,显著缩短测试长度,同时达到相同的估计精度。
One-for-All: Bridge the Gap Between Heterogeneous Architectures in Knowledge Distillation
Zhiwei Hao Jianyuan Guo Kai Han Yehui Tang Han Hu Yunhe Wang Chang Xu
研究问题:现有的知识蒸馏方法大多基于同构教师和学生模型的假设,对于异构模型之间的蒸馏效果不佳。
动机:通过中心化核对准(CKA)比较异构教师和学生模型学习的特征,发现特征差异大,说明以前的提示式方法在跨架构蒸馏中效果不佳。
方法:提出一种简单有效的“一对所有”的知识蒸馏框架OFA-KD,将中间特征投影到一个对齐的潜在空间(如logits空间),丢弃特定于架构的信息。同时引入自适应目标增强方案,防止学生被无关信息干扰。
效果:通过各种架构(CNN、Transformer、MLP等)的大量实验,证明OFA-KD框架在异构架构之间的蒸馏上具有优越性。使用OFA-KD的学生模型性能显著提高,CIFAR-100数据集上最大提升8.0%,ImageNet-1K数据集上提升0.7%。
Fed-GraB: Federated Long-tailed Learning with Self-Adjusting Gradient Balancer
Zikai Xiao Zihan Chen Songshang Liu Hualiang Wang YANG FENG Jin Hao Joey Tianyi Zhou Jian Wu Howard Hao Yang Zuozhu Liu
研究问题:如何在保护数据隐私和处理长尾分布的情况下,对每个客户端持有的异构数据集进行联合学习。
动机:在许多真实世界的任务中,数据隐私和长尾分布是常态而非例外。当数据集可以全球聚合时,它们共同表现出长尾分布,但现有的联邦优化和/或集中式长尾学习方法由于在隐私约束下描述全局长尾分布和调整局部学习策略以应对头尾不平衡的挑战而难以应用。
方法:提出一种名为Fed-GraB的方法,包括一个自我调整的梯度平衡器(SGB)模块和一个直接先验分析器(DPA)模块,通过闭环方式根据全局长尾分布的反馈重新加权客户端的梯度。
效果:使用Fed-GraB,客户端可以在模型训练过程中有效地缓解由数据异质性引起的分布漂移,同时保持多数类的性能,获得在少数类上性能更好的全局模型。大量实验证明,Fed-GraB在CIFAR-10-LT、CIFAR-100-LT、ImageNet-LT和iNaturalist等代表性数据集上取得了最先进的性能。
GALOPA: Graph Transport Learning with Optimal Plan Alignment
Yejiang Wang Yuhai Zhao Daniel Zhengkui Wang Ling Li
研究问题:本文旨在解决图对比学习中寻找标签不变性的增强图和确定样本对之间相似性程度的问题。
动机:现有的图对比学习方法面临在寻找标签不变性的增强图和确定样本对之间相似性程度的挑战。
方法:本文提出了一种替代的自监督解决方案,该方案无需区分正负样本,可以校准编码器以保留图中的结构信息和不同图之间的匹配信息,并学习保留图间距离的等距嵌入。
效果:实验结果表明,该方案显著优于使用传输距离的策略,即使在高干扰率下也能保持稳健的结果,并在各种基准测试中验证了该方法的有效性。
ResMem: Learn what you can and memorize the rest
Zitong Yang Michal Lukasik Vaishnavh Nagarajan Zonglin Li Ankit Singh Rawat Manzil Zaheer Aditya Krishna Menon Sanjiv Kumar
研究问题:如何通过显式记忆提高模型的泛化性能。
动机:现代神经网络的出色泛化能力部分归功于它们隐式记忆复杂训练模式的能力,受此启发,我们探索了一种新的通过显式记忆来提高模型泛化的方法。
方法:我们提出了残差记忆(ResMem)算法,这是一种新的方法,通过将现有预测模型(如神经网络)的残差拟合到基于最近邻的回归器中来增强模型。最终预测是原始模型和拟合残差回归器的总和。
效果:实验结果表明,ResMem在标准视觉和自然语言处理基准测试中始终能提高原始预测模型的测试集泛化能力。
Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation
Fei Zhang Tianfei Zhou Boyang Li Hao He Chaofan Ma Tianjiao Zhang Jiangchao Yao Ya Zhang Yanfeng Wang
研究问题:本文研究了弱开放词汇语义分割(WOVSS)的问题,即如何仅使用图像-文本对来分割任意类别的对象。
动机:现有的方法通过引入显式分组识别来增强基本的视觉变换器,但这些方法在组令牌的使用粒度上存在不一致,导致训练和推理阶段组令牌的对齐方式分别为全部到一对一和一对一。
方法:为了解决这种粒度上的不一致性,本文提出了显式监督组令牌的方法,从原型知识中获取。具体来说,我们提出了非可学习的原型正则化(NPR),其中非可学习的原型是从源特征中估计出来的,作为监督并实现组令牌的对比匹配。
效果:实验结果表明,我们提出的方法在几个基准数据集上取得了最先进的性能。
A Unified Approach to Domain Incremental Learning with Memory: Theory and Algorithm
Haizhou Shi Hao Wang
研究问题:本文旨在解决领域增量学习的问题,即如何通过访问来自以前领域的一小部分数据(即记忆)来适应一系列领域。
动机:尽管已经提出了许多解决这个问题的方法,但它们之间的关系以及实践者应该选择哪一种方法仍然不清楚。
方法:为此,我们提出了一个统一的框架,称为统一领域增量学习(UDIL),用于具有记忆的领域增量学习。我们的UDIL统一了各种现有方法,并且我们的理论分析表明,与这些方法相比,UDIL总是实现了更紧的泛化误差界限。
效果:实验结果表明,我们的UDIL在合成和真实世界的数据集上都优于最先进的领域增量学习方法。
UniT: A Unified Look at Certified Robust Training against Text Adversarial Perturbation
Muchao Ye Ziyi Yin Tianrong Zhang Tianyu Du Jinghui Chen Ting Wang Fenglong Ma
研究问题:近年来,对抗性文本扰动(如同义词替换)的鲁棒训练管道不断涌现,但现有方法在离散词空间和连续潜在空间中提供预测证书时存在结构性差距。
动机:现有的训练框架需要统一,以提供更强的鲁棒性保证。同时,它们主要关注构建认证过程,而忽视了提高基础模型的鲁棒性。
方法:为解决上述问题,我们提出了一个名为UniT的统一框架,该框架可以在词嵌入空间中灵活训练,无需额外模块即可直接从词嵌入空间获得更强的鲁棒性保证。此外,我们还引入了解耦正则化(DR)损失来提高基础模型的鲁棒性,包括针对特征提取和分类器模块的两个独立的鲁棒性正则化项。
效果:在广泛使用的文本分类数据集上进行的实验结果表明,设计的统一框架和提出的DR损失对于提高认证鲁棒精度具有有效性。
Context-guided Embedding Adaptation for Effective Topic Modeling in Low-Resource Regimes
Yishi Xu Jianqiao Sun Yudi Su Xinyang Liu Zhibin Duan Bo Chen Mingyuan Zhou
研究问题:当前基于嵌入的神经主题模型在低资源主题建模中表现优越,但它们研究问题:当前基于嵌入的神经主题模型在低资源主题建模中表现优越,但它们通常忽视了词义在不同上下文中的动态变化,导致在新任务和不熟悉的上下文中适应性较差。
动机:为了解决这个问题,本文提出了一种有效的方法,通过充分利用上下文信息为每个任务自适应地生成语义定制的词嵌入。
方法:首先,我们将每个任务的单词的上下文句法依赖关系浓缩成语义图,然后使用变分图自动编码器对其进行建模以产生特定于任务的词表示。在此基础上,我们在单词的潜在空间上施加一个可学习的高斯混合先验,从聚类的角度高效地学习主题表示,有助于发现多样化的主题并快速适应新任务。
效果:大量的定量和定性实验表明,该方法全面超越了已建立的主题模型。
Towards Efficient Pre-Trained Language Model via Feature Correlation Distillation
Kun Huang Xin Guo Meng Wang
研究问题:如何有效地将大型预训练语言模型的知识传递给学生模型。
动机:现有的知识蒸馏方法主要关注直接对齐变压器模块的输出特征,这可能会对学生模型的学习过程施加过于严格的约束,并通过引入额外的参数和计算成本使训练过程复杂化。
方法:我们提出了一种新的方法,直接从输出特征中建立关系。具体来说,我们同时引入了令牌级和序列级的关系,以充分利用教师模型的知识。此外,我们还提出了一种基于相关性的蒸馏损失函数,以缓解传统KL散度或MSE损失函数所固有的精确匹配特性。
效果:广泛的实验结果表明,我们的小型语言模型在各种NLP任务上都显著超越了现有的知识蒸馏方法。
Towards Hybrid-grained Feature Interaction Selection for Deep Sparse Network
Fuyuan Lyu Xing Tang Dugang Liu Chen Ma Weihong Luo Liang Chen xiuqiang He Xue Liu
研究问题:如何有效地在深度稀疏网络中选择特征交互,特别是在细粒度上。
动机:现有的方法主要关注如何在粗粒度空间中搜索特征交互,对细粒度的特征交互选择关注较少。
方法:提出了一种混合粒度的特征交互选择方法,同时针对特征字段和特征值进行优化。通过实时计算分解空间来探索这种广阔的空间,并开发了一种名为OptFeature的选择算法,可以同时从特征字段和特征值中高效地选择特征交互。
效果:实验结果表明,OptFeature在三个大型真实世界基准数据集上具有良好的准确性和效率。
Test-Time Distribution Normalization for Contrastively Learned Visual-language Models
Yifei Zhou Juntao Ren Fengyu Li Ramin Zabih Ser-Nam Lim
研究问题:现有的视觉-语言对比学习在执行下游应用时,仅通过图像和文本表示的点积操作可能会损失信息。
动机:为了解决这一问题,本文提出了一种新的测试时间增强方法——分布归一化(DN)。
方法:通过计算一批测试样本的平均表示,并将其视为负样本在InfoNCE损失中的等效物,来近似地获取负样本的信息。这种方法无需重新训练或微调,可以很容易地应用于推理阶段。
效果:大量的实验表明,DN在各种下游任务上明显优于其他现有的测试时间增强方法。
RanPAC: Random Projections and Pre-trained Models for Continual Learning
Mark McDonnell Dong Gong Amin Parvaneh Ehsan Abbasnejad Anton van den Hengel
研究问题:本文旨在解决持续学习(CL)中的记忆遗忘问题,特别是在使用预训练模型进行增量学习时。
动机:大多数现有的持续学习方法主要关注从零开始的学习范式,而忽视了预训练模型在处理不同任务时的潜力。同时,已有的基于预训练模型的持续学习方法存在特征分布差距大或易忘记的问题。
方法:本文提出了一种简洁有效的基于预训练模型的持续学习方法。该方法通过在预训练模型的特征表示和输出头之间插入一个冻结的随机投影层,利用非线性激活来捕获扩展维度的特征交互,从而提高了基于类原型的持续学习的线性可分性。同时,作者还证明了类原型去相关对于减少使用预训练表示时的特征分布差异的重要性。
效果:实验结果表明,这种方法在七个类别增量基准数据集上,相比于之前应用在预训练ViT-B/16模型上的持续学习方法,最终错误率降低了10%到62%,尽管没有使用任何回忆内存。这表明预训练模型在简单、有效和快速的持续学习方面的潜力尚未完全挖掘。
An Empirical Study Towards Prompt-Tuning for Graph Contrastive Pre-Training in Recommendations
Haoran Yang Xiangyu Zhao Yicong Li Hongxu Chen Guandong Xu
研究问题:本文旨在解决图对比学习在推荐系统中的应用中,预训练和下游任务目标不一致的问题。
动机:目前的图对比学习方法在推荐系统中,通常将对比损失和下游推荐目标结合形成总体目标函数,这与原始的GCL范式(不涉及下游训练目标)不一致。
方法:本文提出了一种基于提示增强的GCL推荐系统框架CPTPP,通过提示调整来充分利用原始GCL协议的优点。具体来说,首先对用户档案进行总结以自动生成个性化的用户提示,然后将这些提示与预训练的用户嵌入进行组合,在下游任务中进行提示调整,从而缩小预训练和下游任务之间的不同目标。
效果:在三个基准数据集上的大量实验表明,CPTPP相对于最先进的基线具有有效性。进一步的可视化实验表明,CPTPP生成的用户嵌入具有更均匀的分布,表明其更好地模拟了用户偏好的多样性。
Synthetic Experience Replay
Cong Lu Philip J. Ball Yee Whye Teh Jack Parker-Holder
研究问题:如何充分利用深度强化学习中的有限数据进行训练。
动机:深度强化学习需要收集大量数据,但数据获取困难,限制了其发展。
方法:提出合成经验回放(SynthER)方法,通过生成模型来灵活地增加代理的经验数据。
效果:在离线和在线环境中,无论是在自身感觉环境还是像素化环境中,SynthER都能显著提高训练效果和样本效率。
Implicit Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis
Zhu Wang Sourav Medya Sathya N. Ravi
研究问题:如何有效地结合预训练深度网络和外部语义知识,同时减少模型大小和计算成本。
动机:目前的深度学习模型在处理未见过的数据时,可能无法捕捉到重要的语义信息和数据集内的隐含依赖关系。
方法:提出了一种简化的方法,将预训练深度网络的特征和免费的显式语义知识进行组合,并引入了一个可微分的异常分布(OOD)检测层来移除与图像不对应的无关显式知识。
效果:实验结果表明,这种方法可以在显著减少样本和训练时间的情况下,达到与最先进的结果相当的性能。
Structured Federated Learning through Clustered Additive Modeling
Jie Ma Tianyi Zhou Guodong Long Jing Jiang Chengqi Zhang
研究问题:异构联邦学习在没有假设任何结构的情况下,由于客户端非同质数据分布的冲突而具有挑战性。
动机:在实践中,客户端通常由近同质集群组成,因此为每个集群训练一个服务器端模型可以缓解冲突。然而,具有客户端聚类的FL经常遭受“聚类崩溃”,即一个集群的模型在增加客户端时表现优秀,并减少到单一模型FL。此外,集群模型阻碍了集群之间的知识共享,并且每个模型依赖于更少的客户端。
方法:我们提出了“聚类加性建模(CAM)”,它在集群模型(Θ_1 : K)之上应用全局共享模型(Θ_g),即对于第k个集群的客户端,y=h(x;Θ_g)+f(x;Θ_k)。全局模型捕获所有集群共享的特征,因此Θ_1 : K被强制关注集群之间的差异。为了训练CAM,我们开发了一种新颖的Fed-CAM算法,该算法在客户端聚类和训练全局/集群模型之间交替进行,以预测彼此的残差。
效果:我们可以很容易地通过CAM修改任何现有的聚类FL方法,并在不同的非IID设置中显著提高其性能,而不会发生“聚类崩溃”。我们还提供了Fed-CAM算法的收敛性分析。
IDEA: An Invariant Perspective for Efficient Domain Adaptive Image Retrieval
Haixin Wang Hao Wu Jinan Sun Shikun Zhang Chong Chen Xian-Sheng Hua Xiao Luo
研究问题:本文旨在解决无监督领域自适应哈希问题,即如何利用标签丰富的源领域知识快速学习标签稀缺的目标领域的哈希。
动机:尽管现有的方法试图将迁移学习技术纳入深度哈希框架,但他们往往忽视了两个领域之间充分对齐的基本不变性。更糟糕的是,这些方法无法区分图像中嵌入的因果和非因果效应,使得跨领域检索无效。
方法:我们提出了一种获取不变性的领域自适应哈希(IDEA)模型。首先,我们将每个图像分解为表示标签信息的因果特征和非因果特征。然后,我们在源和目标领域上使用一致性学习生成判别哈希码。更重要的是,我们使用生成模型生成合成样本来模拟各种非因果效应的干预,最终最小化它们对哈希码的影响以实现域不变性。
效果:在基准数据集上进行的全面实验验证了我们的IDEA与各种竞争基线相比的优越性能。
Beyond probability partitions: Calibrating neural networks with semantic aware grouping
Jia-Qi Yang De-Chuan Zhan Le Gan
研究问题:深度网络的预测往往过于乐观,导致预测误差被低估。
动机:由于数据有限,现有的研究提出了基于模型预测概率的各种方法来划分数据并评估校准误差。
方法:提出一种更通用的校准误差定义,称为分区校准误差(PCE),揭示了这些校准误差度量之间的关键区别在于如何划分数据空间。通过语义相关的分区函数,展示了模型准确性和校准之间的关系在于分区函数的粒度。
效果:通过在深度模型特征和日志its上联合学习一个语义感知的分组函数来划分数据空间为子集,然后为每个子集学习单独的校准函数。实验结果表明,该方法在多个数据集和网络架构上都取得了显著的性能改进,从而强调了分区函数对校准的重要性。
IPMix: Label-Preserving Data Augmentation Method for Training Robust Classifiers
Zhenglin Huang Xiaoan Bao Na Zhang Qingqi Zhang Xiao mei Tu Biao Wu Xi Yang
研究问题:如何在保证模型在干净数据上的准确率的同时,提高其在数据分布变化时的鲁棒性。
动机:虽然数据增强已被证明能有效防止过拟合,提高卷积神经网络分类器的准确率,但在真实场景中构建深度神经网络不仅需要对干净数据的高准确率,还需要在数据分布变化时保持鲁棒性。
方法:提出IPMix数据增强方法,将图像级、补丁级和像素级的三级数据增强整合为一个连贯且保留标签的技术,以有限的计算开销增加训练数据的多样性。为了进一步提高鲁棒性,IPMix在不同级别引入结构复杂性生成更多样化的图像,并采用随机混合方法进行多尺度信息融合。
效果:实验表明,IPMix在CIFAR-C和ImageNet-C上的表现优于最先进的腐败鲁棒性。此外,IPMix还显著提高了其他安全性措施,包括对抗性扰动的鲁棒性、校准、预测一致性和异常检测,在ImageNet-R、ImageNet-A和ImageNet-O等多个基准测试中达到或接近最先进的结果。
Eliminating Domain Bias for Federated Learning in Representation Space
Jianqing Zhang Yang Hua Jian Cao Hao Wang Tao Song Zhengui XUE Ruhui Ma Haibing Guan
研究问题:在统计异构场景下,客户端的有偏数据域会导致表示偏差现象,进一步导致本地训练期间通用表示退化。
动机:为了解决这些问题,我们提出了一种用于联邦学习的通用框架——领域偏差消除器(DBE)。
方法:通过减少服务器和客户端在表示空间中的域差异,DBE可以促进服务器和客户端之间的双向知识转移。
效果:实验结果表明,DBE可以在泛化和个性化能力上大大改善现有的FL方法。配备了DBE的FL方法可以大幅超越十种最先进的个性化FL方法。
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning
Jialong Wu Haoyu Ma Chaoyi Deng Mingsheng Long
研究问题:本文旨在解决在野外视频中预训练世界模型的问题,以有效地学习下游视觉控制任务。
动机:野外视频的复杂性和多样性使得世界模型难以提取共享的世界知识进行更好的泛化。
方法:引入了上下文世界模型(ContextWM),通过将上下文编码器与潜在动态模型结合,实现了上下文和动态建模的分离,以克服野外视频的复杂性和多样性,促进不同场景之间的知识转移。
效果:实验表明,使用ContextWM进行野外视频预训练可以显著提高多领域的样本效率,包括机器人操作、移动和自动驾驶。
ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning
Junguang Jiang Baixu Chen Junwei Pan Ximei Wang Dapeng Liu jie jiang Mingsheng Long
研究问题:本研究旨在解决多任务学习中的负迁移问题,即同时学习多个相关任务反而导致目标任务性能下降的问题。
动机:现有的优化方法主要通过协调任务梯度来解决负迁移问题,但忽视了辅助任务和目标任务的泛化能力。
方法:提出一种新的方法ForkMerge,该方法定期将模型分为多个分支,通过最小化目标验证误差自动搜索不同的任务权重,并动态合并所有分支以过滤掉有害的任务参数更新。
效果:在一系列辅助任务学习基准测试中,ForkMerge优于现有方法,有效地缓解了负迁移问题。
ReContrast: Domain-Specific Anomaly Detection via Contrastive Reconstruction
Jia Guo shuai lu LIze JIa Weihang Zhang Huiqi Li
研究问题:目前的最先进的无监督异常检测(UAD)方法主要依赖于在大规模数据集上预研究问题:目前的最先进的无监督异常检测(UAD)方法主要依赖于在大规模数据集上预训练的冻结编码器网络的特征表示,但这些特征与目标UAD领域(如工业检测和医学影像)所需的特征相去甚远。
动机:为了解决这一问题,本文提出了一种新的认识UAD方法,即ReContrast,它通过优化整个网络来减少对预训练图像领域的偏见,并将网络定位在目标领域。
方法:该方法首先采用特征重建方法从错误中检测异常。本质上,对比学习的元素被巧妙地嵌入到特征重建中,以防止网络训练不稳定、模式崩溃和相同的捷径,同时优化目标领域的编码器和解码器。
效果:通过在两个流行的工业缺陷检测基准和三个医学图像UAD任务上进行广泛的实验,证明了我们的方法在不同图像领域的迁移能力,并显示出优于当前最先进的方法的优势。
Feature Dropout: Revisiting the Role of Augmentations in Contrastive Learning
Alex Tamkin Margalit Glasgow Xiluo He Noah Goodman
研究问题:增强在对比学习中的作用是什么?
动机:最近的研究表明,良好的增强是针对特定下游任务的标签保留。我们通过展示破坏标签的增强在基础模型设置中的有效性,使这个问题变得更复杂,其中的目标是为多个下游任务学习多样化、通用性表示。
方法:我们在一系列图像和音频数据集上进行对比学习实验,涉及多个下游任务(例如预测照片上的数字)。我们发现,最近提出的用于对比学习的学习增强的Viewmaker网络,会产生破坏特征的增强,这些特征对于不同的下游任务是必要的。
效果:尽管这些增强没有保留标签信息,但它们通常是可解释的(例如改变形状、添加到图像的数字或字母),并且结果往往比专家设计的增强更好。我们的理论研究分析了一个带有线性模型的简单对比学习设置,发现破坏标签的增强对于防止一组特征抑制另一组有用特征的学习至关重要。
Towards Distribution-Agnostic Generalized Category Discovery
Jianhong Bai Zuozhu Liu Hualiang Wang Ruizhe Chen Lianrui Mu Xiaomeng Li Joey Tianyi Zhou YANG FENG Jian Wu Haoji Hu
研究问题:本文旨在解决真实视觉世界中数据不平衡和开放分布这两个固有特征的问题,特别是在长期开放的世界中对近集样本和开放集样本进行分类的挑战。
动机:尽管在分别应对每个挑战方面取得了令人鼓舞的进展,但很少有工作致力于将它们结合起来以应对真实世界的场景。
方法:本文提出了一个更现实的问题,即分布不可知的广义类别发现(DA-GCD),并为此提出了一个自我平衡共建议对比框架(BaCon)。该框架由一个对比学习分支和一个伪标签分支组成,通过协作提供交互式监督来解决DA-GCD任务。
效果:实验结果表明,BaCon在所有基线上都表现出优越的性能,并在各种数据集上进行了全面分析。
Where2Explore: Few-shot Affordance Learning for Unseen Novel Categories of Articulated Objects
Chuanruo Ning Ruihai Wu Haoran Lu Kaichun Mo Hao Dong
研究问题:本文旨在解决机器人在处理各种物体类别时的挑战,特别是在面对未见过的对象类别时的泛化问题。
动机:由于物体类别的几何和语义差异巨大,以往的操纵模型难以泛化到新的类别。少次学习是一种有前景的解决方案,允许机器人与未见过的物体进行几次交互。然而,现有的方法通常需要对每个未见过的对象实例进行昂贵且低效的测试时间交互。
方法:我们提出了"Where2Explore",一个利用不同类别共享的局部几何相似性(如可拉的手柄和可抓的边缘)进行有效探索的新框架。该框架通过估计不同类别之间的几何相似性,识别出训练类别形状不同的局部区域进行高效探索,同时将适任性知识转移到对象的相似部分。
效果:在模拟和真实环境中进行的大量实验表明,我们的框架具有高效的少次探索和泛化能力。
Domain Watermark: Effective and Harmless Dataset Copyright Protection is Closed at Hand
Junfeng Guo Yiming Li Lixu Wang Shu-Tao Xia Heng Huang Cong Liu Bo Li
研究问题:本文旨在重新审视基于后门的数据集所有权验证(DOV),以保护开源代码集的版权。
动机:目前的DOV方法可能会引入恶意误分类行为,对水印DNNs造成伤害。
方法:通过让水印模型正确分类一些“困难”样本,这些“困难”样本会被良性模型误分类,从而设计新的DOV方法。该方法受到DNNs的泛化特性的启发,找到原始数据集的“几乎未泛化的领域”(作为其“领域水印”),并使用包含修改样本的保护数据集轻松学习。
效果:在三个基准数据集上进行的大量实验验证了该方法的有效性和对潜在适应性方法的抵抗力。
Data Selection for Language Models via Importance Resampling
Sang Michael Xie Shibani Santurkar Tengyu Ma Percy Liang
研究问题:如何从大规模的未标注数据集中选择适合预训练的语言模型的子集。
动机:现有的方法主要依赖简单的启发式算法或专家手动筛选,缺乏效率和扩展性。
方法:提出了一种名为“重要性重采样的数据选择”(DSIR)的方法,该方法在降低的特征空间中估计重要性权重,并根据这些权重进行重要性重采样来选择数据。
效果:实验结果表明,DSIR在特定领域的持续预训练中与专家策划的表现相当,在一般领域模型的预训练(目标为维基百科+书籍)中,DSIR比随机选择和启发式过滤基线提高了2-2.5%的性能。
Learning Invariant Representations with a Nonparametric Nadaraya-Watson Head
Alan Q. Wang Minh Nguyen Mert R. Sabuncu
研究问题:训练机器学习模型时,如果部署环境的数据分布与训练分布不同,模型可能会失败。当训练过程中存在多个环境时,如何学习到对不同分布不变的表示?
动机:为了解决在部署环境中数据分布不同的问题,提出了一种基于最近提出的Nadaraya-Watson(NW)头的非参数策略来学习不变的表示。
方法:通过操纵支持集(由标记数据组成),使模型能够编码不同的因果假设。特别是,将支持集限制为单个环境,可以鼓励模型学习不依赖于环境的不变特征。
效果:在三个具有挑战性的计算机视觉领域泛化任务上进行了验证,实验结果证明了该方法的有效性。
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL
Yang Yue Rui Lu Bingyi Kang Shiji Song Gao Huang
研究问题:离线强化学习中Q值估计的发散性是一个突出问题,尽管可以通过策略约束或保守的Q估计来缓解这个问题,但对其根本原因的理论理解仍然缺失。
动机:本研究旨在深入理解导致离线RL中Q值估计发散性的根本机制,并提出改进的解决方案。
方法:我们首先确定了“自我激发”作为离线RL中Q值估计发散性的主要原因。然后,我们提出了一种新的基于神经切线核(NTK)的自我激发特征值度量(SEEM)指标,以测量Q网络在训练过程中的演变特性,这为发散性的出现提供了有趣的解释。
效果:实验证明,我们的理论可以可靠地在早期阶段决定训练是否会发散,甚至可以预测当使用SGD优化器时,估计的Q值、模型的范数和崩溃步长的增长速度顺序。此外,我们还发现LayerNorm是一种有效的解决方案,可以在不引入有害偏差的情况下避免发散性,从而获得优越的性能。
Discover and Align Taxonomic Context Priors for Open-world Semi-Supervised Learning
Yu Wang Zhun Zhong Pengchong Qiao Xuxin Cheng Xiawu Zheng Chang Liu Nicu Sebe Rongrong Ji Jie Chen
研究问题:如何利用部分标注样本对未见类别进行分类,特别是在多粒度标签下。
动机:现有的方法主要关注单一粒度标签的关系,而忽略了类之间的层次关系和更深层次的监督信息。
方法:提出了一种名为Taxonomic context prIors Discovering and Aligning (TIDA)的统一框架,该框架通过构建一组潜在空间中的分层原型来发现潜在的分类上下文先验(即子类、目标类和超类),然后协同利用它们来增强表示学习并提高伪标签的质量。
效果:实验表明,这两个组件对于有效的开放世界半监督学习框架是互惠互利的,并在七个常用数据集上显著提高了性能,达到了新的最先进的水平。
Saving 100x Storage: Prototype Replay for Reconstructing Training Sample Distribution in Class-Incremental Semantic Segmentation
Jinpeng Chen Runmin Cong Yuxuan LUO Horace Ip Sam Kwong
研究问题:现有的增量式语义分割(CISS)方法主要解决灾难性遗忘和背景偏移问题,但常常忽视了另一个关键问题。
动机:在CISS中,每一步都关注不同的前景类别,单个步骤的训练集只包含当前前景类别的像素图像,排除了不包含这些类别的图像。这导致这些前景类别在单步训练集中过度表示,导致分类偏向于这些类别。
方法:我们提出了STAR方法,通过存储紧凑的原型和必要的统计数据来保留每个过去类别的主要特征,并通过重播这些原型并适当频率地重复背景像素,使单步训练样本的类别分布与完整数据集对齐。
效果:与以前重播原始图像的工作相比,我们的方法节省了100倍的存储空间,同时实现了更好的性能。此外,STAR引入了一个旧类特征保持(OCFM)损失,在保持旧类特征不变的同时保留了学习新类别的足够塑性。此外,还采用了一种相似感知判别(SAD)损失,专门增强相似旧新类别对之间的特征多样性。在Pascal VOC 2012和ADE20K两个公共数据集上的实验表明,我们的模型超过了所有先前最先进的方法。
Repetition In Repetition Out: Towards Understanding Neural Text Degeneration from the Data Perspective
Huayang Li Tian Lan Zihao Fu Deng Cai Lemao Liu Nigel Collier Taro Watanabe Yixuan Su
研究问题:本文旨在解决神经网络文本退化问题,即生成重复和枯燥的循环。
动机:目前的预训练语言模型缺乏对丰富的结构化知识的利用,在知识图谱中的有信息量的实体可以通过外部知识来增强语言表示。
方法:通过从数据角度提供一个简单而基本的解释,发现退化问题与训练数据中的重复存在强相关性。后续实验还表明,通过选择性地忽略训练数据中重复的单词的注意力,可以显著减少退化。此外,实证分析表明,从不同角度解决退化问题的先前工作,如高流入词、可能性目标和自我强化现象,都可以用一个简单的解释来解释。
效果:实验结果表明,即使在考虑更大的模型规模和指令调优时,惩罚训练数据中的重复仍然是有效的。
Overcoming Recency Bias of Normalization Statistics in Continual Learning: Balance and Adaptation
Yilin Lyu Liyuan Wang Xingxing Zhang Zicheng Sun Hang Su Jun Zhu Liping Jing
研究问题:本文旨在解决深度学习中的持续学习问题,特别是针对Batch Normalization(BN)在处理新旧任务平衡时存在的次优性。
动机:当前深度学习模型在处理持续学习问题时,由于无法获取旧的训练样本,往往会出现严重的遗忘旧任务的问题。而BN在进行参数更新时,会受目前观察到的训练样本的梯度和统计量的影响,导致对新旧任务的处理存在偏向性,影响了训练的稳定性和泛化能力。
方法:本文提出了一种名为Adaptive Balance of BN (AdaB$^2$N)的方法。该方法通过引入基于贝叶斯的策略来适应任务的贡献,并使用修改后的动量来平衡BN的统计量,以应对训练和测试阶段的挑战。
效果:实验结果表明,AdaB$^2$N在一系列基准测试中取得了显著的性能提升,特别是在具有挑战性的在线场景中(例如,在Split CIFAR-10、Split CIFAR-100和Split Mini-ImageNet上分别提高了7.68%、6.86%和4.26%)。
Decompose Novel into Known: Part Concept Learning For 3D Novel Class Discovery
Tingyu Weng Jun Xiao Haiyong Jiang
研究问题:本文旨在解决三维新颖类别发现(NCD)问题,即如何从未标记的数据集中通过利用已知类别的知识来发现新的类别。
动机:三维新颖类别发现的主要挑战在于已知类别识别学习到的特征存在严重偏差,阻碍了对新类别的泛化。由于几何部分在不同类别之间更具泛化性,因此提出将新类别分解为已知部分,称为DNIK,以减轻上述问题。
方法:DNIK学习一个部分概念库,该库编码来自已知类别的丰富部分几何模式,以便新的形状可以表示为部分概念组合,促进跨类别泛化。此外,还制定了三个部分概念约束,以确保部分概念的多样性而不塌陷。同时开发了一个部分关系编码模块(PRE),利用部分空间关系进行更好的识别。
效果:通过构建三个3D NCD任务进行评估,实验结果表明该方法比最先进的基线方法取得了显著优越的结果(在三个任务上平均提高了+11.7%,+14.1%和+16.3%)。代码和数据将发布。
Certifiably Robust Graph Contrastive Learning
Minhua Lin Teng Xiao Enyan Dai Xiang Zhang Suhang Wang
研究问题:本文旨在解决图对比学习(GCL)在面对图结构和节点属性的对抗攻击时的脆弱性问题。
动机:尽管已经提出了一些经验方法来增强GCL的鲁棒性,但其可证明的鲁棒性仍未得到探索。
方法:我们开发了第一个可证明的鲁棒GCL框架。首先,我们提出了一个统一的标准来评估和证明GCL的鲁棒性。然后,我们引入了一种名为RES(随机边删除平滑)的新方法,以确保任何GCL模型的可证明鲁棒性,并且这种可证明的鲁棒性可以在下游任务中得到保留。此外,我们还提出了一种有效的鲁棒GCL训练方法。
效果:我们在真实数据集上的大量实验表明,我们提出的方法在提供有效的可证明鲁棒性和增强任何GCL模型的鲁棒性方面非常有效。
Holistic Transfer: Towards Non-Disruptive Fine-Tuning with Partial Target Data
Cheng-Hao Tu Hong-You Chen Zheda Mai Jike Zhong Vardaan Pahuja Tanya Berger-Wolf Song Gao Charles Stewart Yu Su Wei-Lun Chao
研究问题:我们提出了一个学习问题,即如何将预训练的源模型适应目标领域,以分类源数据中出现的所有类别,使用仅覆盖部分标签空间的目标数据。
动机:这个问题具有实际意义,因为在进行适应之前,让目标最终用户收集所有类别的数据是不现实的。然而,这个问题在文献中受到的关注有限。
方法:我们构建了基准数据集并进行了广泛的实验,以揭示其中的内在挑战。我们发现了一个两难境地——一方面,适应新的目标任务对提高性能很重要;另一方面,我们发现保留目标适应数据中缺失类别的分类准确性非常具有挑战性,更不用说提高它们了。为了解决这个问题,我们确定了两个关键方向:1)将领域梯度与分类梯度分离;2)保持类别关系。我们提出了几种有效的解决方案,这些方案可以保持缺失类别的准确性并提高整体性能,为使用部分目标数据的预训练模型的整体转移建立了坚实的基线。
效果:通过实验验证,我们的方法能够有效地解决预训练模型在目标领域适应时面临的挑战,特别是在处理只有部分标签的目标数据时。
Latent Graph Inference with Limited Supervision
Jianglin Lu Yi Xu Huan Wang Yue Bai Yun Fu
研究问题:现有的潜在图推理方法在没有语义监督的情况下学习大量的边权重,导致测试样本的预测结果无法达到语义最优,影响模型的泛化能力。
动机:潜在图推理中图稀疏化操作严重破坏了关键节点和已标记节点之间的重要连接,导致监督不足的问题。
方法:提出通过恢复损坏的亲和力和补充缺失的监督来改善潜在图推理。首先定义枢纽节点为k跳饥饿节点,然后通过重构被破坏的连接消除饥饿节点。
效果:实验表明,减少饥饿节点可以显著提高现有潜在图推理方法的性能,特别是在监督非常有限的情况下(在标注率仅为0.3%的情况下,在Pubmed上提高了6.12%)。
Interactive Multi-fidelity Learning for Cost-effective Adaptation of Language Model with Sparse Human Supervision
Jiaxin Zhang Zhuohang Li Kamalika Das Sricharan Kumar
研究问题:大型语言模型在各种任务上表现出色,但在特定领域的适用性受限,因为部署规模大、易受误导信息影响,更重要的是高数据标注成本。
动机:针对标注预算有限的特定领域任务,提出一种新颖的交互多保真学习(IMFL)框架,以降低开发成本。
方法:将特定领域的微调过程表述为一个多保真学习问题,关注于识别最优获取策略,平衡低保真自动语言模型标注和高保真人工标注,以最大化模型性能。进一步提出探索-利用查询策略,增强标注的多样性和信息量,包括两个创新设计:1) 提示检索,从人工标注样本中选择上下文示例以提高语言模型标注;2) 可变批量大小,控制选择每个保真的顺序以促进知识蒸馏,最终提高标注质量。
效果:在金融和医疗任务上的大量实验表明,IMFL在四个任务上都优于单一保真度标注。在有限的人工标注预算下,IMFL在所有四个任务上都显著优于3倍人类标注基线,并在两个任务上实现了与5倍人类标注相近的性能。这些令人鼓舞的结果表明,通过采用IMFL,可以利用更少的人工标注以及更便宜、更快的语言模型(如GPT-3.5)标注实现相当的性能,从而显著降低特定领域任务中的高人工标注成本。
Domain Re-Modulation for Few-Shot Generative Domain Adaptation
Yi Wu Ziqiang Li Chaoyue Wang Heliang Zheng Shanshan Zhao Bin Li Dacheng Tao
研究问题:本文旨在解决少样本生成领域适应(GDA)任务,即如何仅使用少量参考图像将预训练的生成器从一个领域转移到新领域。
动机:受到人类大脑在新领域中获取知识的方式的启发,提出了一种创新的生成器结构——域重调制(DoRM)。
方法:DoRM不仅满足了先前在GDA研究中实现的高质量、大合成多样性和跨领域一致性的标准,还引入了记忆和领域关联,类似于人类大脑的工作方式。具体来说,DoRM冻结了源生成器并引入新的映射和仿射模块(M&A模块)以在GDA期间捕获目标领域的特性。这个过程类似于人类大脑中新突触的形成。因此,风格空间中发生了可线性组合的领域转移。通过引入多个新的M&A模块,生成器获得了执行高保真多领域和混合领域生成的能力。此外,为了更有效地保持跨领域的一致性,引入了一种基于相似性的损失结构。这种损失在训练过程中将目标图像的自相关映射与其对应的源图像的自相关映射对齐。
效果:通过大量实验,证明了我们的DoRM和基于相似性的损失结构在少样本GDA中的优越性能,无论是定量还是定性上。
Scale-teaching: Robust Multi-scale Training for Time Series Classification with Noisy Labels
Zhen Liu Peitian Ma Dongliang Chen Wenbin Pei Qianli Ma
研究问题:如何提高深度神经网络对噪声标签的鲁棒性。
动机:现有的深度学习方法在处理图像数据时,将训练损失小的样本视为正确标签,但这种方法在处理时间序列数据时可能会受到外部噪声的影响,导致一些样本的训练损失不满足小损失标准。
方法:提出一种名为“尺度教学”的深度学习范式,通过利用不同尺度的时间序列同时训练多个深度神经网络,并设计细到粗的跨尺度融合机制来学习判别模式。每个网络都以跨教学的方式训练,使用来自不同尺度的互补信息选择小损失样本作为清洁标签。对于未被选中的大损失样本,通过使用选定的清洁样本进行标签传播来引入多尺度嵌入图学习以纠正其标签。
效果:在多个基准时间序列数据集上的实验表明,所提出的“尺度教学”范式在有效性和鲁棒性方面优于现有的最佳方法。
Harnessing Hard Mixed Samples with Decoupled Regularizer
Zicheng Liu Siyuan Li Ge Wang Lirong Wu Cheng Tan Stan Z. Li
研究问题:本文旨在解决动态混合方法在优化混合样本时带来的额外计算开销问题。
动机:目前的动态混合方法虽然能提高神经网络的泛化能力,但优化混合样本的过程会带来额外的时间成本。
方法:提出一种名为解耦混合(DM)的高效混合目标函数,通过解耦正则化器,让静态混合方法也能挖掘判别性特征,同时保持混合的平滑性。
效果:实验结果表明,DM能让静态混合方法在无需额外计算的情况下,达到甚至超过动态方法的性能。
FedFed: Feature Distillation against Data Heterogeneity in Federated Learning
Zhiqin Yang Yonggang Zhang Yu Zheng Xinmei Tian Hao Peng Tongliang Liu Bo Han
研究问题:联邦学习中,如何在保护隐私和提升模型性能之间找到平衡?
动机:在联邦学习中,数据异质性是一个挑战。共享客户端信息可以缓解数据异质性,但可能侵犯隐私并影响模型性能。
方法:提出一种名为FedFed的新方法,将数据分为对模型性能影响大的性能敏感特征和影响小的性能鲁棒特征。性能敏感特征全局共享以缓解数据异质性,性能鲁棒特征保留在本地。
效果:实验证明,FedFed能在保护隐私的同时提升模型性能。
Annotator: A Generic Active Learning Baseline for LiDAR Semantic Segmentation
Binhui Xie Shuang Li qingju guo Chi Harold Liu Xinjing Cheng
研究问题:如何有效地利用主动学习进行LiDAR语义分割,以解决点云数据量大、标注成本高的问题。
动机:传统的标注方法在处理大量的LiDAR点云数据时,需要大量的人工标注,成本高昂。
方法:本文提出了一种名为Annotator的主动学习基线模型,该模型采用了体素为中心的在线选择策略,能够高效地探测和标注每个LiDAR扫描中的显著和典型体素网格,甚至在分布偏移的情况下也能保持高效。
效果:Annotator模型在多种设置中表现出色,尤其在主动学习、主动源自由领域适应和主动领域适应等任务中表现优异。在各种LiDAR语义分割基准测试中,Annotator模型始终能提供出色的性能,无论是在模拟到真实的场景还是真实到真实的场景中。令人惊讶的是,Annotator模型表现出了显著的效率,例如,在SynLiDAR → SemanticKITTI任务中,只需要标注每个扫描的五个体素就能达到87.8%的全监督性能。
Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots
Ruixiang Tang Jiayi Yuan Yiming Li Zirui Liu Rui Chen Xia Hu
研究问题:预训练语言模型(PLMs)在自然语言处理中广泛应用,但易受后门攻击影响。
动机:为了解决后门攻击问题,提出一种抵抗后门的微调程序,使模型无论在含毒样本的数据集上进行微调都能得到无后门的模型。
方法:在原始PLM中整合一个“蜜罐模块”,该模块专门用于吸收后门信息。通过在微调过程中对蜜罐模块获取的信息施加惩罚,抑制后门创建。
效果:在基准数据集上的全面实验表明,该方法比现有最先进的方法成功降低了10%至40%的攻击成功率,具有很高的有效性和鲁棒性。
Sequential Subset Matching for Dataset Distillation
Jiawei Du Qin Shi Joey Tianyi Zhou
研究问题:现有的知识图谱预训练语言模型缺乏对结构化知识的利用,如何通过结合大规模文本语料库和知识图谱来增强语言表示。
动机:目前的预训练语言模型在处理丰富的结构化知识方面存在不足,而知识图谱中的有信息量的实体可以提供外部知识以增强语言表示。
方法:采用大规模文本语料库和知识图谱进行联合训练,提出了一种增强的语言表示模型ERNIE,能够同时充分利用词汇、句法和知识信息。
效果:实验结果表明,ERNIE在各种知识驱动任务上取得了显著改进,并且在其他常见的NLP任务上与最先进的BERT模型相媲美。
SmooSeg: Smoothness Prior for Unsupervised Semantic Segmentation
Mengcheng Lan Xinjiang Wang Yiping Ke Jiaxing Xu Litong Feng Wayne Zhang
研究问题:如何实现无监督语义分割,即在没有手动标注的情况下将图像分割成语义组。
动机:现有的方法主要依赖于语义一致性的先验知识或自监督学习方法中的先验概念,往往忽视了图像段的连贯性属性。
方法:本文提出一种新的方法SmooSeg,利用自监督学习方法来模拟观察值之间的接近关系作为平滑度信号。同时引入一种新颖的平滑度损失函数,以促进段内分段平滑,同时保留不同段之间的不连续性。
效果:由于丰富的平滑度先验监督线索,SmooSeg在三个数据集上的表现显著优于STEGO,具体表现为:COCOStuff(+14.9%)、Cityscapes(+13.0%)和Potsdam-3(+5.7%)。
Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources
Feiyang Kang Hoang Anh Just Anit Kumar Sahu Ruoxi Jia
研究问题:在现实数据交换场景中,数据提供者通常只透露有限的样本集,然后做出获取决定。
动机:现有的预测模型性能的缩放函数通常是黑箱操作,计算成本高,容易过拟合,或难以优化数据选择。
方法:本文提出了一个名为“projektor”的框架,该框架基于部分预期数据源的样本预测模型性能并支持数据选择决策。
效果:实验证明,projektor在预测模型性能的准确性和构造性能预测器的计算成本方面显著优于现有的性能缩放方法,并在数据选择效率上大幅超过其他现成的解决方案。
FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness for Semi-Supervised Learning
Zhuo Huang Li Shen Jun Yu Bo Han Tongliang Liu
研究问题:现有的半监督学习方法通常基于不同数据转换之间的实例一致性,导致标记数据的标签指导难以传播到未标记的数据,从而影响学习过程和泛化性能。
动机:为了解决半监督学习中的问题,本文提出了一种新的方法——FlatMatch,通过最小化交叉锐度度量来确保两个数据集之间的一致学习性能。
方法:具体来说,我们首先增加标记数据的经验风险以获得一个最坏情况的模型,然后利用未标记数据的丰富性,对最坏情况模型和原始模型之间的预测差异(即交叉锐度)进行惩罚,使学习方向有利于未标记数据上的泛化。
效果:通过全面的验证,我们发现FlatMatch在许多半监督学习设置中都取得了最先进的结果,有效地利用了未标记的数据并提高了半监督学习的性能。
Augmented Memory Replay-based Continual Learning Approaches for Network Intrusion Detection
Suresh kumar Amalapuram Sumohana S. Channappayya Bheemarjuna Tamma
研究问题:本文旨在改进基于连续学习的入侵检测方法,以解决类别不平衡和可扩展性问题。
动机:在通信网络流量中,入侵检测是一种异常活动检测的形式。连续学习(CL)方法可以累积旧知识并适应最新的威胁知识。
方法:首先,我们扩展了基于记忆的CL方法——类别平衡水库采样(CBRS),以解决大型数据集的严重类别不平衡问题。其次,我们提出了一种基于高斯混合模型的新方法——参数近似的干扰辅助(PAPA),以减少发现最大干扰样本所需的虚拟随机梯度下降(SGD)参数计算数量。
效果:实验结果表明,所提出的方法在标准的入侵检测基准上(KDDCUP'99, NSL-KDD, CICIDS-2017/2018, UNSW-NB15, 和 CTU-13)以及具有分布偏移的更长时间段(AnoShift)上都显著优于基线。我们还在标准持续学习基准(SVHN, CIFAR-10/100, 和 CLEAR-10/100)和异常检测基准(SMAP, SMD, 和 MSL)上验证了所提出的方法。此外,提出的PAPA方法显著减少了虚拟SGD更新操作的数量,从而比最大干扰样本检索算法节省了12%到40%的训练时间。
AdaptSSR: Pre-training User Model with Augmentation-Adaptive Self-Supervised Ranking
Yang Yu Qi Liu Kai Zhang Yuren Zhang Chao Song Min Hou Yuqing Yuan ZHIhao Ye ZAIXI ZHANG Sanshi Lei Yu
研究问题:用户模型训练依赖于特定任务的标记数据,并受到数据稀疏性问题的影响。
动机:由于用户兴趣多样且行为噪声大,现有的数据增强方法可能会丢失用户的某些特性或引入噪声行为,导致预训练的用户模型产生负迁移。
方法:提出一种新的预训练任务——增强自适应自我监督排名(AdaptSSR),以缓解对增强视图之间语义一致性的要求,同时预训练一个判别性用户模型。具体来说,采用多对排序损失来训练用户模型捕获隐含增强视图、显式增强视图和其他用户视图之间的相似性顺序。
效果:在公共和工业数据集上的六个下游任务的大量实验验证了AdaptSSR的有效性。
Diffusion-Based Probabilistic Uncertainty Estimation for Active Domain Adaptation
Zhekai Du Jingjing Li
研究问题:如何通过主动标注少量目标样本来辅助领域适应,并解决传统主动学习无法处理的领域偏移问题。
动机:大多数现有的主动领域适应(ADA)方法主要关注测量目标样本的代表性,而忽视了不确定性估计的问题。
方法:提出了一种概率框架,用于捕获数据级和预测级的不确定性,使用变分推断来近似潜在表示和模型预测的联合后验分布。
效果:实验结果表明,该方法在主动领域适应和源自由领域适应设置上均优于以往的ADA方法,能提供更准确的预测,并在三个领域适应数据集上取得了良好的性能。
Uncertainty-Aware Alignment Network for Cross-Domain Video-Text Retrieval
Xiaoshuai Hao Wanqian Zhang
研究问题:本文旨在解决无监督领域适应视频-文本检索(UDAVR)的挑战,即训练(源)数据和测试(目标)数据来自不同领域的问题。
动机:现有的方法大多基于分类的领域适应方法,既不适用于检索任务,也不适用于多模态。此外,对于目标领域的配对不匹配问题,即目标视频和文本之间没有配对注释,现有方法假设一个视频对应一个文本,但在实践中,一个文本通常对应多个视频,反之亦然。
方法:我们提出了一种名为不确定性感知对齐网络(UAN)的新方法。具体来说,我们首先引入了多模态互信息模块,以平滑地最小化领域偏移。为了解决目标领域中的多模态不确定配对不匹配问题,我们提出了不确定性感知对齐机制(UAM),以充分利用目标领域中两种模态的语义信息。
效果:在领域适应的视频-文本检索背景下进行的大量实验表明,我们提出的方法始终优于多个基线,显示出对目标数据的优越泛化能力。
Collaborative Learning via Prediction Consensus
Dongyang Fan Celestine Mendler-Dünner Martin Jaggi
研究问题:如何通过利用其他模型的专业知识,提高单个模型的性能。
动机:在协作学习环境中,每个模型都希望通过借鉴合作者的知识来提升自己的性能。
方法:提出一种基于蒸馏的方法,利用共享的未标记辅助数据,这些数据由集体进行伪标签标注。该方法的核心是一个信任加权方案,用于自适应地权衡每个合作者对伪标签的影响,直到达成对辅助数据如何标注的共识。
效果:实验证明,这种协作方案能够显著提高目标领域中个体模型的性能,同时可以有效地减轻不良模型对集体的负面影响。此外,该方法能够适应模型架构的异质性,并大大减少与典型协作学习方法相比的通信开销。
Revisit the Power of Vanilla Knowledge Distillation: from Small Scale to Large Scale
Zhiwei Hao Jianyuan Guo Kai Han Han Hu Chang Xu Yunhe Wang
研究问题:本文探讨了在只有小数据集的情况下,设计知识蒸馏(KD)方法的合理性。
动机:现有的KD方法存在对大规模数据集如ImageNet-1K的力量估计不足的问题。
方法:通过使用更强的数据增强技术和更大的数据集,减小了普通KD和其他精心设计的KD变体之间的差距。
效果:在没有额外复杂设计的情况下,实现了ResNet-50、ViT-S和ConvNeXtV2-T模型在ImageNet上83.1%、84.3%和85.0%的顶级精度。
Evaluating Robustness and Uncertainty of Graph Models Under Structural Distributional Shifts
Gleb Bazhenov Denis Kuznedelev Andrey Malinin Artem Babenko Liudmila Prokhorenkova
研究问题:在基于机器学习的可靠决策系统中,模型需要对分布变化具有鲁棒性或提供预测的不确定性。
动机:在图学习中的节点级问题上,由于样本相互依赖,分布变化可能特别复杂。因此,评估图模型的性能需要在多样化且有意义的分布变化上进行测试。
方法:提出一种基于图结构产生多样化分布变化的通用方法,并使用这种方法根据几种结构性节点属性(如流行度、局部性和密度)创建数据分割。
效果:实验结果表明,提出的分布变化对现有的图模型构成了挑战。同时,简单的模型在这些考虑的结构变化上往往优于更复杂的方法。最后,实验证据表明,在学习基础分类任务下的表示质量与使用这些表示将不同节点从不同分布中分离出来的能力之间存在权衡。
R-divergence for Estimating Model-oriented Distribution Discrepancy
Zhilin Zhao Longbing Cao
研究问题:真实生活中的数据由于复杂的分布和交互通常不是独立同分布的,不同的学习模型对样本分布的敏感性可能不同。因此,任何监督或非监督模型的一个关键问题是是否可以认为两个给定数据集的概率分布是相同的。
动机:为了解决这个问题,我们引入了R-divergence,用于评估面向模型的分布差异。其核心思想是,如果两个分布的最佳假设为每个分布产生相同的期望风险,那么这两个分布很可能是相同的。
方法:R-divergence通过在混合数据上学习最小假设,然后衡量它们之间的经验风险差来估计两个数据集之间的分布差异。
效果:我们在各种无监督和有监督任务上评估测试能力,发现R-divergence实现了最先进的性能。为了展示R-divergence的实用性,我们在有噪声标签的样本上使用R-divergence训练了鲁棒的神经网络。
DiffKendall: A Novel Approach for Few-Shot Learning with Differentiable Kendall's Rank Correlation
Kaipeng Zheng Huishuai Zhang Weiran Huang
研究问题:如何更准确地确定新任务中的特征通道重要性,特别是在少量学习的情况下。
动机:传统的少量学习方法主要依赖于几何相似性度量(如余弦相似性和负欧几里得距离)来衡量两个特征之间的语义相关性,但这种方法可能会忽视具有高几何相似性但具有不同语义的特征。
方法:本文提出使用Kendall的等级相关系数作为特征通道的重要性排名指标,代替几何相似性度量。同时,为了解决Kendall的等级相关系数在推理阶段的不可微分问题,提出了一种精心设计的可微分元训练损失函数。
效果:实验结果表明,基于等级相关系数的方法在各种方法和数据集上都取得了显著的改进,可以集成到许多现有的少量学习方法中,并准备与未来依赖几何相似性度量的最新方法集成。
DRAUC: An Instance-wise Distributionally Robust AUC Optimization Framework
Siran Dai Qianqian Xu Zhiyong Yang Xiaochun Cao Qingming Huang
研究问题:如何在分布不均的情况下优化AUC指标。
动机:现有的方法主要假设训练和测试样本是从同一分布中独立同分布抽取的,但在实践中这往往无法实现。
方法:提出了一种实例化的分布鲁棒AUC(DRAUC)替代损失函数,并在此基础上构建了优化框架。同时,指出传统的DRAUC可能会引入标签偏差,因此提出了更适合学习鲁棒AUC的分布感知DRAUC。
效果:理论证明如果训练集足够大,训练损失和测试误差之间的差距会减小。在被破坏的基准数据集上的实验证明了该方法的有效性。
Improving Adversarial Robustness via Information Bottleneck Distillation
Huafeng Kuang Hong Liu YONGJIAN WU Shin'ichi Satoh Rongrong Ji
研究问题:优化信息瓶颈以提高深度神经网络的鲁棒性。
动机:利用来自健壮预训练模型的先验知识来增强信息瓶颈。
方法:提出一种信息瓶颈蒸馏方法,包括两种策略:一是使用健壮软标签蒸馏法增加潜在特征和输出预测之间的互信息;二是引入自适应特征蒸馏法,自动将相关知识从教师模型转移到学生模型,从而降低输入和潜在特征之间的互信息。
效果:通过广泛的实验证明,该方法在对抗最先进的攻击者如PGD-attack和AutoAttack时,可以显著提高对抗鲁棒性。
Imbalanced Mixed Linear Regression
Pini Zilber Boaz Nadler
研究问题:本文研究了混合线性回归问题,即每个观测样本都属于一个未知的K个线性模型之一。
动机:在实际应用中,K个模型的混合可能不平衡,每个模型的样本数量差异显著。大多数MLR方法在这种设置下表现不佳,因此需要一种新方法来解决这个问题。
方法:本文提出了一种新的、简单且快速的算法Mix-IRLS,用于处理平衡和不平衡的混合情况。与流行的同时恢复K个模型的方法不同,Mix-IRLS使用鲁棒回归工具进行顺序恢复。
效果:实验结果表明,除了不平衡的混合情况外,Mix-IRLS在其他几种情况下也表现出色,包括小样本量、存在异常值和未知数量的模型K。此外,Mix-IRLS在一些真实世界数据集上优于竞争方法,有时优势很大。通过推导Mix-IRLS的恢复保证,进一步强调了其在不平衡混合情况下的优势。
BIOT: Biosignal Transformer for Cross-data Learning in the Wild
Chaoqi Yang M Brandon Westover Jimeng Sun
研究问题:本文旨在开发一种灵活的生物信号编码器架构,能够在不同的数据集上进行预训练,并在具有不同格式的下游生物信号任务上进行微调。
动机:当前的深度学习模型(基于CNN、RNN和Transformers)通常针对特定的数据集和临床环境进行优化,限制了其广泛的应用性。
方法:提出了Biosignal Transformer (BIOT)模型,通过将不同的生物信号分解为统一的“句子”结构,使模型能够处理通道不匹配、长度可变和缺失值等问题。
效果:在EEG、心电图和人体活动感知信号等多种生物信号学习设置中,BIOT模型均表现出色,证明了其在处理多种数据格式上的有效性。
What Knowledge Gets Distilled in Knowledge Distillation?
Utkarsh Ojha Yuheng Li Anirudh Sundara Rajan Yingyu Liang Yong Jae Lee
研究问题:知识蒸馏过程中被蒸馏的知识是什么?学生如何变得与教师相似?
动机:尽管知识蒸馏技术不断改进,但其基本理解仍存在明显差距。
方法:通过全面研究现有方法,探讨知识蒸馏的运作方式。
效果:发现现有方法确实能间接提炼出超越任务性能的属性,并对此进行深入研究,其发现具有实际意义。
FouriDown: Factoring Down-Sampling into Shuffling and Superposing
Qi Zhu Man Zhou Jie Huang Naishan Zheng Hongzhi Gao Chongyi Li Yuan Xu Feng Zhao
研究问题:本研究重新审视了空间降采样技术的工作机理,并分析了先前方法中采用的静态加权策略导致的偏见效应。
动机:为了克服这个限制,我们提出了一种新的降采样范例——FouriDown,该范例在傅里叶域中统一了现有的降采样技术。
方法:我们从信号采样定理中获得灵感,将非参数静态加权降采样操作符参数化为一个可学习且上下文自适应的操作符,并在统一的傅里叶函数中进行。
效果:通过在图像去模糊和低光图像增强等任务上进行大量实验,结果一致表明FouriDown可以显著提高性能。我们将公开代码以促进FouriDown的进一步探索和应用。
A Closer Look at the Robustness of Contrastive Language-Image Pre-Training (CLIP)
Weijie Tu Weijian Deng Tom Gedeon
研究问题:本文旨在探索CLIP模型在特定视觉因素变化下的稳健性,以及其在预测不确定性和异常输入检测等安全相关目标上的效果。
动机:虽然CLIP模型在多个挑战性的分布转移上显示出了显著的泛化能力,但在面对具体的视觉因素变化时,其稳健性仍有待进一步探索。此外,可靠的系统除了分类准确性外,还需要考虑其他的安全性措施,如预测不确定性。然而,CLIP模型在这些安全性相关目标上的效果尚未得到充分研究。
方法:本研究对83个CLIP模型和127个ImageNet分类器进行了全面的研究,考虑了10种视觉因素(如形状和模式)、5种分布外数据类型和8种自然且具有挑战性的测试条件,包括纹理、风格和扰动转移等。
效果:研究发现,CLIP模型并不总是比其他ImageNet模型更校准,这与现有发现相矛盾。此外,我们的分析强调了训练源设计的重要性,展示了其对三个关键属性的深远影响。我们相信,这项全面的研究能够为开发更稳健、更可靠的CLIP模型提供启示和指导。
FeCAM: Exploiting the Heterogeneity of Class Distributions in Exemplar-Free Continual Learning
Dipam Goswami Yuyang Liu Bartłomiej Twardowski Joost van de Weijer
研究问题:本文旨在解决无范例的类别增量学习(CIL)中的挑战,如禁止重放以前任务的数据导致的灾难性遗忘。
动机:由于无法重放之前的任务数据,无范例的类别增量学习面临着许多挑战,包括灾难性遗忘。最近,冻结特征提取器后逐步学习分类器的方法受到了广泛关注。
方法:本文探索了原型网络在CIL中的应用,该方法使用冻结的特征提取器生成新的类别原型,并根据欧几里得距离对特征进行分类。通过分析类别的特征分布,我们发现基于欧几里得度量的分类对于联合训练的特征是成功的。然而,当我们从非平稳数据中学习时,我们发现欧几里得度量不是最优的,而且特征分布是异构的。为了解决这个问题,我们重新审视了各向异性马氏距离在CIL中的应用。此外,我们通过实证发现,建模特征协方差关系比之前的尝试从正态分布中采样特征并训练线性分类器更有效。
效果:与现有方法不同,我们的方法可以推广到多例和少例CIL设置以及领域增量设置。有趣的是,在不更新主干网络的情况下,我们的方法在几个标准的持续学习基准测试上取得了最先进的结果。
Mixed Samples as Probes for Unsupervised Model Selection in Domain Adaptation
Dapeng Hu Jian Liang Jun Hao Liew Chuhui Xue Song Bai Xinchao Wang
研究问题:如何准确选择无监督领域适应(UDA)模型以改善未标记目标数据的模型泛化?
动机:由于缺乏标记的目标数据和域分布偏移,准确选择最佳UDA模型具有挑战性。
方法:本文提出了一种名为MixVal的创新模型选择方法,该方法仅在推理期间使用未标记的目标数据。MixVal利用带有伪标签的混合目标样本直接探测每个UDA模型学习到的目标结构。
效果:实验结果表明,MixVal在11种UDA方法和4种适应设置中实现了最先进的性能,并在模型选择中保持了出色的稳定性。
LMC: Large Model Collaboration with Cross-assessment for Training-Free Open-Set Object Recognition
Haoxuan Qu Xiaofei Hui Yujun Cai Jun Liu
研究问题:如何准确进行开放集物体识别,减少对误导性特征的依赖。
动机:不同预训练大模型拥有丰富而独特的隐含知识,通过协作这些模型可以解决上述问题。
方法:提出一种名为“大型模型协作”(LMC)的新框架,以训练自由的方式协作不同的现成大模型,并结合几种新设计有效地从大模型中提取隐含知识。
效果:大量实验证明该框架的有效性。
CL-NeRF: Continual Learning of Neural Radiance Fields for Evolving Scene Representation
Xiuzhe Wu Peng Dai Weipeng DENG Handi Chen Yang Wu Yan-Pei Cao Ying Shan XIAOJUAN QI
研究问题:如何有效地让神经辐射场(NeRFs)适应真实世界的场景变化。
动机:现有的方法需要大量的数据捕获和模型重新训练,既耗时又耗力。
方法:提出一种名为CL-NeRF的新方法,包括两个关键组件:一个用于适应新变化的轻量级专家适配器和一个冲突感知的知识蒸馏学习目标,用于记住未改变的部分。
效果:实验表明,CL-NeRF可以高效地合成已改变和未改变区域的高质量新视图,减少遗忘并适应变化,优于现有方法。
Leave No Stone Unturned: Mine Extra Knowledge for Imbalanced Facial Expression Recognition
Yuhang Zhang Yaqi Li lixiong Qin Xuannan Liu Weihong Deng
研究问题:本文旨在解决面部表情识别(FER)中存在的严重不平衡问题,即大部分研究问题:本文旨在解决面部表情识别(FER)中存在的严重不平衡问题,即大部分收集的数据表示快乐或中性的表情,而恐惧或厌恶的表情实例较少。
动机:现有的FER方法主要从少数类样本中学习少数类的知识,但这种方法在处理所有表情类别的平均准确率时表现不佳。因此,作者提出从多数和少数类样本中提取与少数类相关的额外知识。
方法:作者提出了一种新颖的方法,利用重新平衡的注意力图对模型进行正则化,使其能够从所有训练样本中提取关于少数类的转换不变信息。此外,还引入了重新平衡的平滑标签来调整交叉熵损失,通过利用不平衡训练数据标签分布的额外信息,引导模型更多地关注少数类。
效果:通过对不同的数据集和骨干网络进行大量的实验,证明这两个提出的模块共同对模型进行正则化,并在不平衡的FER任务下实现了最先进的性能。
On the Adversarial Robustness of Out-of-distribution Generalization Models
Xin Zou Weiwei Liu
研究问题:近年来,由于在现实应用中的出色实验结果,分布外(OOD)泛化引起了越来越多的研究关注。
动机:我们发现现有的OOD泛化方法容易受到对抗性攻击,这激发了我们研究OOD对抗性鲁棒性的兴趣。
方法:首先,我们在两种不同的互补设置中对OOD对抗性鲁棒性进行了理论分析。受理论结果的启发,我们设计了两种算法来提高OOD对抗性鲁棒性。最后,我们进行实验以验证我们提出的算法的有效性。
效果:实验结果表明,我们的方法能有效提高OOD对抗性鲁棒性。
Rethinking Semi-Supervised Medical Image Segmentation: A Variance-Reduction Perspective
Chenyu You Weicheng Dai Yifei Min Fenglin Liu David A. Clifton S Kevin Zhou Lawrence Hamilton Staib James s Duncan
研究问题:如何提高医学图像分割的质量,特别是在标签有限的情况下。
动机:对比学习是提高视觉表示质量的主要方法,但在实践中可能会遇到模型难以区分少数尾部类别样本的问题,导致模型崩溃和误分类。
方法:提出了一种名为ARCO的半监督对比学习框架,利用分层群理论进行医学图像分割。特别是通过方差减小估计的概念构建ARCO,并证明某些方差减小技术在标签非常有限的像素/体素级分割任务中特别有益。
效果:在八个基准测试上进行了实验验证,包括五个2D/3D医疗和三个语义分割数据集,不同的标签设置,这些方法始终优于最先进的半监督方法。此外,通过将这些采样技术增强到CL框架中,显著提高了以前的方法。
On the Constrained Time-Series Generation Problem
Andrea Coletta Sriram Gopalakrishnan Daniel Borrajo Svitlana Vyetrenko
研究问题:如何有效地生成受约束的时间序列,同时确保其真实性和满足特定的数值约束。
动机:现有的受约束时间序列生成方法需要重新训练或使用计算成本高的拒绝采样来适应新的约束,且在复杂约束下可能不实用。
方法:本文提出了一种新颖的方法来解决受约束的时间序列生成问题,包括使用约束优化框架进行框架设定,以及提出一系列生成方法,如'GuidedDiffTime',一个有指导的扩散模型。
效果:通过在金融和能源数据等多个数据集上进行实证评估,发现该方法在定性和定量上都优于现有工作,并且'GuidedDiffTime'不需要为新约束重新训练,从而显著降低了碳足迹,最高可达现有深度学习方法的92%。
Weighted ROC Curve in Cost Space: Extending AUC to Cost-Sensitive Learning
Huiyang Shao Qianqian Xu Zhiyong Yang Peisong Wen Gao Peifeng Qingming Huang
研究问题:本文旨在解决长尾数据集的灵活成本需求,需要构建一个(a)成本敏感和(b)类别分布稳健的学习框架。
动机:现有的误分类成本和ROC曲线下的面积(AUC)是处理(a)和(b)问题的流行指标,但受限于它们的公式,使用AUC训练的模型不能应用于成本敏感的决策问题,而使用固定成本训练的模型对类别分布变化敏感。
方法:我们提出了一种新的设置,将成本视为数据集来处理任意未知的成本分布。此外,我们还提出了一种新颖的加权AUC版本,可以通过决策阈值将成本分布在其计算中进行整合。
效果:实验结果表明,我们的算法在性能上优于现有的成本敏感学习方法和两阶段AUC决策方法。
Theoretically Guaranteed Bidirectional Data Rectification for Robust Sequential Recommendation
yatong sun Bin Wang Zhu Sun Xiaochun Yang Yan Wang
研究问题:序列推荐系统在训练过程中,用户可能会被诱导点击与其真实偏好不符的项目,导致输入-目标对不可靠。
动机:当前的研究方法无法同时处理不可靠的输入和目标,且大多数方法只能解决其中一个问题。
方法:提出了一个模型无关的双向数据校正(BirDRec)框架,该框架可以与现有的大多数序列推荐系统灵活结合,以对抗不可靠的数据。
效果:通过在四个真实世界数据集上的大量实验,验证了BirDRec的通用性、有效性和效率。
What Truly Matters in Trajectory Prediction for Autonomous Driving?
Tran Phong Haoran Wu Cunjun Yu Panpan Cai Sifa Zheng David Hsu
研究问题:轨迹预测在自动驾驶系统中起着关键作用,但其在固定数据集上的预测精度与用于车辆控制的下游预测精度存在显著差异,这被称为动态差距。
动机:由于预测算法会影响自我车辆的行为,而自我车辆的行为又会影响附近其他车辆的行为,这种互动效应会导致特定的预测器动态,直接影响预测结果。但在固定数据集中,由于其他车辆的反应是预先确定的,这种互动效应会被忽略,从而产生显著的动态差距。
方法:本文研究了这种被忽视的动态差距的重要性,并考察了导致预测性能和驾驶性能之间差异的其他几个因素。
效果:研究发现,预测器的计算效率和预测精度之间的权衡决定了现实世界中的驾驶性能。总的来说,一个交互式的、任务驱动的轨迹预测评估协议对于捕捉其在自动驾驶中的效果至关重要。
Semi-Supervised Contrastive Learning for Deep Regression with Ordinal Rankings from Spectral Seriation
Weihang Dai Yao DU Hanru Bai Kwang-Ting Cheng Xiaomeng Li
研究问题:如何将对比学习方法应用于深度回归,特别是在半监督设置中利用无标签数据。
动机:现有的对比学习方法仅限于有标签数据,而分类任务可以利用无标签数据进行对比预训练。
方法:扩展对比回归方法以允许在半监督设置中使用无标签数据,减少对人工标注的依赖。通过恢复有序关系来进行无标签样本的对比学习,从而让更多的数据参与特征表示学习。
效果:实验结果表明,该方法可以超越现有的最先进的半监督深度回归方法,是首次探索使用无标签数据进行对比学习的研究。
Adaptive Uncertainty Estimation via High-Dimensional Testing on Latent Representations
Tsai Hor Chan Kin Wai Lau Jiajun Shen Guosheng Yin Lequan Yu
研究问题:现有的不确定性估计方法依赖于低维分布假设,对高维潜在特征的处理效果不佳,且主要关注离散分类概率的不确定性,缺乏泛化性。
动机:为了克服现有方法在处理高维特征和未知数据上的局限性,提出一种新框架,利用数据自适应的高维假设检验进行不确定性估计。
方法:该方法直接在潜在表示上操作,不需要修改目标函数重新训练特征编码器。测试统计量放宽了特征分布假设到高维,对潜在表示中的不确定性更具判别性。
效果:实验证明,使用贝叶斯神经网络编码的特征可以提高测试性能,实现更准确的不确定性估计。当训练中未见OOD数据时,该方法在OOD检测任务上也表现出满意的性能。
On student-teacher deviations in distillation: does it pay to disobey?
Vaishnavh Nagarajan Aditya Krishna Menon Srinadh Bhojanapalli Hossein Mobahi Sanjiv Kumar
研究问题:知识蒸馏(KD)在训练“学生”网络模仿已训练的“教师”网络的软概率时,尽管学生网络被训练去适应教师的概率,但其可能不仅会显著偏离教师的概率,而且可能会超越教师的性能。本研究旨在调和这种看似矛盾的观察结果。
动机:通过实验和理论研究,揭示学生网络与教师网络的概率偏差的性质,并解释这些偏差如何能同时带来更好的泛化性能。
方法:通过对图像和语言数据进行实验,发现学生网络系统地夸大了教师的信心水平。然后,在简单的设置中理论和实证地建立了另一种形式的夸大:KD夸大了梯度下降在沿数据最高特征向量方向更快收敛时的隐含偏差。最后,将这两个观察结果联系在一起:证明KD的夸大偏差可以同时导致(a)信心的夸大和(b)学生网络性能的改善,从而为这个明显的矛盾提供了解决方案。
效果:这项分析通过考虑KD中梯度下降的作用,并在理论和实证设置中展示了夸大偏差效应,使现有理论和实践更加接近。
On the Trade-off of Intra-/Inter-class Diversity for Supervised Pre-training
Jieyu Zhang Bohan Wang Zhengyu Hu Pang Wei Koh Alexander Ratner
研究问题:本研究旨在探讨有监督预训练数据集的类别内多样性(每个类别的样本数)和类别间多样性(类别数)之间的权衡对下游任务的影响。
动机:预训练数据集的规模对于构建最先进的机器学习模型至关重要,因此需要对其对下游任务的影响进行严格研究。
方法:通过实验发现,在预训练数据集规模固定的情况下,最佳的下游性能来自于类别内多样性和类别间多样性的平衡。同时,理论分析表明,下游性能与这两种多样性呈单调关系。
效果:理论研究揭示出最优的类别与样本比例(#类别 / #每个类别的样本数)与预训练数据集的规模无关,这启发了预测预训练类别数量的应用。当使用ImageNet作为预训练数据集时,该应用在下游任务上的表现提高了约2个百分点。
Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data
Alon Albalak Colin Raffel William Yang Wang
研究问题:如何在不过度拟合少量标记数据的情况下学习一个可泛化的模型,特别是在现实应用中具有价值的少次学习。
动机:尽管少次学习在许多实际应用中具有价值,但在没有过度拟合少量标记数据的情况下学习一个可泛化的模型是具有挑战性的。
方法:本文关注使用辅助数据的少次学习(FLAD),这是一种在少次学习期间假设可以使用辅助数据以提高泛化能力的训练范式。我们提出了两种算法——EXP3-FLAD和UCB1-FLAD,并通过广泛的实验发现,探索和利用的结合是关键。
效果:通过大量的实验,我们发现这两种方法比所有现有的FLAD方法提高了4%,并首次实现了优于1750亿参数的GPT-3的30亿参数的语言模型。总的来说,我们的工作表明,发现更好、更有效的FLAD混合策略可能为显著提高少次学习的泛化能力提供了一条可行的路径。
Counterfactual Generation with Identifiability Guarantees
Hanqi Yan Lingjing Kong Lin Gui Yuejie Chi Eric Xing Yulan He Kun Zhang
研究问题:本文旨在解决在缺乏配对数据和标签信息的情况下,如何识别并处理计数事实生成任务中内容和风格变量之间变化的依赖关系。
动机:现有的解耦方法依赖于过于简化的假设,如假设内容和风格变量是独立的,这在复杂的数据分布中可能不成立。特别是在跨多个领域的样本中,内容和风格之间的依赖性可能会显著变化。
方法:本文提出了一种名为MATTE的领域自适应计数事实生成模型,通过利用不同潜在变量影响的相对稀疏性,为这种潜在变量模型提供了识别保证。
效果:该理论框架在四个大规模数据集上实现了无监督的风格转换任务的最先进的性能,这些任务既没有使用配对数据,也没有使用风格标签。
CLIP4HOI: Towards Adapting CLIP for Practical Zero-Shot HOI Detection
Yunyao Mao Jiajun Deng Wengang Zhou Li Li Yao Fang Houqiang Li
研究问题:零样本人类-物体交互(HOI)检测旨在识别已出现和未出现的HOI类别,但目前的顶级方法在处理位置分布差异时表现不佳。
动机:为了解决现有方法在处理未见过的对象类别时的位置分布差异问题,以及避免模型过度拟合已见过的人类-物体对的位置联合分布。
方法:提出了CLIP4HOI框架,该框架首先将人类和物体独立识别,然后通过人类-物体交互器对所有可能的人类-物体对进行处理以生成配对建议。其次,为了避免数据敏感的知识蒸馏,将CLIP模型精心调整为一个细粒度的HOI分类器用于提议鉴别。
效果:实验结果表明,CLIP4HOI在稀有和未见过的种类上都优于先前的方法,并在各种零样本设置下创造了一系列的最新技术成果。
Does Graph Distillation See Like Vision Dataset Counterpart?
Beining Yang Kai Wang Qingyun Sun Cheng Ji Xingcheng Fu Hao Tang Yang You Jianxin Li
研究问题:大规模图表示学习在训练大型图时取得了显著成果,但其成本和存储问题引起了越来越多的关注。
动机:现有的图压缩方法主要关注优化压缩图的特征矩阵,而忽视了原始图中的结构信息的影响。
方法:我们提出了一种新的结构广播图数据集蒸馏(SGDD)方案,用于将原始结构信息广播到生成的合成图上,从而避免忽视原始结构信息。
效果:通过在9个数据集上进行验证,我们的SGDD方法在所有数据集上都取得了最先进的结果。例如,在YelpChi数据集上,我们的方法在保持原始图数据集98.6%的测试准确率的同时,将图的规模缩小了1000倍。此外,我们的经验评估表明,跨越9个数据集,LED移位减少了17.6%至31.4%。大量的实验和分析验证了所提出设计的效果和必要性。
Environment-Aware Dynamic Graph Learning for Out-of-Distribution Generalization
Haonan Yuan Qingyun Sun Xingcheng Fu Ziwei Zhang Cheng Ji Hao Peng Jianxin Li
研究问题:动态图神经网络在现实场景中的分布偏移问题,即如何泛化到未知环境。
动机:现有工作无法处理动态图中的分布偏移,而动态图的生成受潜在环境影响,因此研究其对分布外(OOD)泛化的影响至关重要。
方法:提出一种新颖的环境感知动态图学习(EAGLE)框架,通过模型复杂耦合环境和利用时空不变模式进行OOD泛化。具体包括设计环境感知的EA-DGNN来通过多通道环境解耦进行环境建模,提出环境实例化机制以实现分布推断下的环境多样化,以及通过不变模式识别机制和节点细粒度的混合实例化环境样本因果干预来进行OOD预测。
效果:实验表明,我们的方法在现实世界和合成动态图数据集上优于最先进的基线方法,特别是在处理分布偏移时。据我们所知,我们是首个从环境学习的角度研究动态图上的OOD泛化的。
MuSe-GNN: Learning Unified Gene Representation From Multimodal Biological Graph Data
Tianyu Liu Yuge Wang Zhitao Ying Hongyu Zhao
研究问题:在多元化生物医学背景下,如何发现具有相似功能的基因,由于数据异质性,这对基因表示学习提出了重大挑战。
动机:为了解决这个问题,我们引入了一种名为多模态相似性学习图神经网络的新型模型,该模型结合了多模态机器学习和深度图神经网络,从单细胞测序和空间转录组学数据中学习基因表示。
方法:利用来自10个组织、三种测序技术和三种物种的82个训练数据集,我们为模型训练和基因表示生成创建了丰富的图结构,同时通过加权相似性学习和对比学习进行正则化,以学习跨数据的基因-基因关系。
效果:全面的基准测试分析表明,我们的模型能有效捕获不同模态下的基因功能相似性,在基因表示学习方面比最先进的方法提高了最多100.4%。此外,我们还使用生物信息学工具与基因表示相结合,挖掘通路富集、调控因果网络以及疾病相关基因的功能。因此,我们的模型能有效地生成统一的基因表示,用于分析基因功能、组织功能、疾病和物种进化。
Diversifying Spatial-Temporal Perception for Video Domain Generalization
Kun-Yu Lin Jia-Run Du Yipeng Gao Jiaming Zhou Wei-Shi Zheng
研究问题:视频领域泛化旨在通过在源领域进行训练,学习未见过的目标领域的可泛化视频分类模型。
动机:视频领域泛化的一个关键挑战是防止在识别目标视频时过度依赖从源领域提取的特定领域的线索。为此,我们提出感知视频中的多样化空间-时间线索,旨在发现除了特定领域的线索之外的潜在的领域不变线索。
方法:我们贡献了一个名为空间-时间多样化网络(STDN)的新型模型,该模型从视频数据的空域和时域两个维度提高了多样性。首先,我们的STDN通过空间分组在单个帧内发现各种类型的空间线索。然后,我们的STDN通过空间-时间关系建模,在多个空时尺度上显式地对视频内容之间的空间-时间依赖性进行建模。
效果:我们在三种不同类型的基准测试上的大量实验证明了我们的方法的有效性和通用性。
Neural Relation Graph: A Unified Framework for Identifying Label Noise and Outlier Data
Jang-Hyun Kim Sangdoo Yun Hyun Oh Song
研究问题:如何诊断和清理大规模真实分布数据集中的复杂问题,如标签错误、数据不足表示和异常值。
动机:由于现实世界的大规模数据集存在复杂的问题,识别和解决这些问题是建立健壮的机器学习系统的关键步骤。
方法:提出一种统一的方法来识别有问题的数据,利用特征嵌入空间中数据的关系结构这一被忽视的信息源。为此,我们提出了基于数据关系图结构的可扩展且有效的算法来检测标签错误和异常数据。我们还引入了一个可视化工具,该工具提供了特征嵌入空间中数据点的上下文信息,是一个有效的交互式诊断数据的工具。
效果:在图像、语音和语言领域的大规模任务上评估了我们的方法,包括ImageNet、ESC-50和SST2。我们的方法在所有考虑的任务上都达到了最先进的检测性能,并在各种领域中证明了其对大型真实世界数据集进行调试的有效性。
Data-Centric Learning from Unlabeled Graphs with Diffusion Model
Gang Liu Eric Inae Tong Zhao Jiaxin Xu Tengfei Luo Meng Jiang
研究问题:如何利用大量未标注的图数据进行属性预测任务。
动机:虽然每个属性预测任务都提供了少量已标注的例子,但大量未标注的图数据已经从各种来源收集到。传统的方法是在自监督任务上训练模型,然后在预测任务上微调模型,但这种方法中,自监督任务的知识可能与预测任务所需的知识不一致或冲突。
方法:本文提出将大量未标注图数据中的潜在知识提取出来,作为一组有用的数据点来增强每个属性预测模型。使用扩散模型充分利用未标注的图数据,并设计两个新的目标,用每个任务的已标注数据指导模型的去噪过程,生成特定于任务的图示例和它们的标签。
效果:实验表明,与传统的自监督学习方法相比,我们的数据驱动方法在15个任务中的15种现有方法上表现出显著的改进。由未标注数据带来的性能提升是明显的,因为生成的已标注示例不同于自监督学习生成的示例。
Label-efficient Segmentation via Affinity Propagation
Wentong Li Yuqian Yuan Song Wang Wenyu Liu Dongqi Tang Jian liu Jianke Zhu Lei Zhang
研究问题:如何降低繁琐的像素级标注过程的成本,同时有效地进行弱监督分割。
动机:现有的方法主要使用局部外观内核来建模相邻的成对势能,但这种方法无法捕捉长范围的依赖关系,忽略了对象的拓扑结构。
方法:将亲和建模定义为亲和传播过程,并提出局部和全局的成对亲和项以生成准确的软伪标签。同时开发了一种有效的算法以显著降低计算成本。
效果:在三个典型的弱监督分割任务上进行的实验表明,该方法具有优越的性能。
Unsupervised Video Domain Adaptation for Action Recognition: A Disentanglement Perspective
Pengfei Wei Lingdong Kong Xinghua Qu Yi Ren zhiqiang xu Jing Jiang Xiang Yin
研究问题:本文旨在解决无监督视频领域适应这一实际而具有挑战性的任务。
动机:首次从解纠缠的角度处理这个问题,通过分离处理空间和时间域的差异。
方法:提出了一种转移序列VAE(TranSVAE)框架来模拟这种生成过程,并设定了多个目标约束潜在因子。
效果:在UCF-HMDB、Jester和Epic-Kitchens数据集上的大量实验验证了TranSVAE的有效性和优越性,优于几种最先进的方法。
Joint Attribute and Model Generalization Learning for Privacy-Preserving Action Recognition
Duo Peng Li Xu Qiuhong Ke Ping Hu Jun Liu
研究问题:如何在保护隐私的同时,从原始视频中识别动作,防止隐私泄露。
动机:在智能视觉应用中,保护隐私的动作识别是一个日益重要的问题。尽管已经有一些努力,但如何处理训练阶段无法获取的新颖隐私属性和新颖隐私攻击模型仍然具有挑战性。
方法:从元学习(学会学习)的角度出发,提出了一种新的元隐私保护动作识别(MPPAR)框架,以统一的方式提高对新颖隐私属性和新颖隐私攻击模型的泛化能力。具体来说,通过构建关于隐私属性或攻击模型的不相交支持/查询集来模拟训练/测试任务转换。然后,基于支持/查询集应用虚拟训练和测试方案,为优化模型的学习提供反馈,使其更好地泛化。
效果:大量的实验表明,与最先进的技术相比,所提出的框架具有有效性和泛化能力。
A Simple Yet Effective Strategy to Robustify the Meta Learning Paradigm
Cheems Wang Yiqin Lv Yanghe Feng Zheng Xie Jincai Huang
研究问题:如何提高元学习在任务分布上的鲁棒性,减少最坏快速适应风险。
动机:现有的元学习方法主要采用经验风险最小化原则进行优化,但在风险敏感的场景中,最坏的快速适应可能会产生灾难性的后果。
方法:本文从分布鲁棒的角度优化元学习流程,并使用尾部任务风险度量来训练模型。通过两阶段策略作为启发式来解决鲁棒元学习问题,以一定的概率水平控制最坏的快速适应情况。
效果:实验结果表明,这种简单的方法可以提高元学习对任务分布的鲁棒性,降低最坏快速适应风险的条件期望。
Jaccard Metric Losses: Optimizing the Jaccard Index with Soft Labels
Zifu Wang Xuefei Ning Matthew B. Blaschko
研究问题:优化语义分割任务中的损失函数,使其能够支持标签平滑、知识蒸馏和半监督学习等关键技术。
动机:现有的交并比(IoU)损失函数在处理软标签时缺乏灵活性,限制了其在训练技术中的应用。
方法:提出Jaccard Metric Losses(JMLs),它与标准的硬标签软Jaccard损失相同,但完全兼容软标签。将其应用于标签平滑、知识蒸馏和半监督学习的三个主要应用场景。
效果:实验表明,JMLs在4个语义分割数据集(Cityscapes, PASCAL VOC, ADE20K, DeepGlobe Land)和13种架构上均优于交叉熵损失,显著提升了模型的准确性和校准性,超越了最先进的知识蒸馏和半监督学习方法。
TopP&R: Robust Support Estimation Approach for Evaluating Fidelity and Diversity in Generative Models
Pum Jun Kim Yoojin Jang Jisu Kim Jaejun Yoo
研究问题:本文旨在提出一种针对生成模型的鲁棒且可靠的评估指标,称为拓扑精确度和召回率(TopP&R),以系统地估计支持度。
动机:现有的评估指标如Inception Score (IS)、Frechet Inception Distance (FID)以及各种精确度和召回率(P&R)变体,严重依赖样本特征的支持度估计,但并未考虑到这些估计的可靠性,这影响了评估的准确性。
方法:本文提出了一种新的评估指标TopP&R,它通过保留具有特定置信度的水平上在拓扑和统计上显著的特征来系统地估计支持度。
效果:实验结果表明,当前的评估方法在支持度估计不可靠时无法准确评估样本质量,并且结果不一致。相比之下,TopP&R能够可靠地评估样本质量,并在其结果中确保统计一致性。即使在存在异常值和非独立同分布(Non-IID)扰动的情况下,TopP&R也能准确捕获样本中的真实变化趋势,这是其他方法导致支持度估计不准确的情况。据我们所知,TopP&R是第一个专门关注支持度稳健估计的评估指标,能在噪声条件下提供统计一致性。
Aligning Language Models with Human Preferences via a Bayesian Approach
Jiashuo WANG Haozhao Wang Shichao Sun Wenjie Li
研究问题:如何确保自然语言生成(NLG)系统与人类偏好对齐,以提升其性能。
动机:当前主流的利用强化学习(RL)和基于人类反馈的奖励模型的方法,由于人类偏好的主观性导致训练奖励模型存在困难,进而影响NLG的性能。
方法:本文提出了一种新方法,使用贝叶斯框架来处理人类偏好之间的分布差异,并训练一个偏好模型(命名为d-PM)。同时,为了提高训练效率,采用对比学习策略,用d-PM模型产生的偏好分数来训练NLG模型。
效果:在两个以人为中心的NLG任务上进行大量实验,即情感支持对话和诚信“经验法则”生成,结果显示该方法在自动评估和人工评估上都超过了先前的最佳模型。
Data Pruning via Moving-one-Sample-out
Haoru Tan Sitong Wu Fei Du Yukang Chen Zhibin Wang Fan Wang XIAOJUAN QI
研究问题:如何有效地识别并移除训练集中最不具信息量的样本?
动机:通过移除最不具信息量的样本,可以降低计算负担,提高模型训练效率。
方法:提出一种名为“移动一个样本出”(MoSo)的数据剪枝方法,通过评估每个样本对最优经验风险的影响来确定其重要性,然后移除影响最小的样本。
效果:实验结果表明,MoSo在高剪枝比例下能有效缓解性能下降,并在各种设置中优于最先进的方法。
Generator Born from Classifier
Runpeng Yu Xinchao Wang
研究问题:本文旨在不依赖任何数据样本,对预训练分类器进行重构图像生成器。
动机:由于涉及识别分类器的逆函数,这个挑战在本质上是信息提取过程,因此从黑箱角度看似乎难以处理。
方法:基于梯度下降的最大边距偏差理论,提出一种新的学习范式,通过满足网络参数的收敛条件来训练生成器。
效果:通过各种图像生成任务的实证验证,证实了我们的策略的有效性。
DisDiff: Unsupervised Disentanglement of Diffusion Probabilistic Models
Tao Yang Yuwang Wang Yan Lu Nanning Zheng
研究问题:如何理解观察背后的可解释因素,并在这些因素上进行条件生成过程的建模。
动机:将解耦表示学习与扩散概率模型(DPMs)相结合,利用DPMs强大的建模能力。
方法:提出一个新的任务——DPMs的解耦,即在没有任何因素注释的情况下,自动发现观察背后的固有因素,并将DPM的梯度场解耦为每个发现的因素的表示所决定的子梯度场。
效果:通过设计一种名为DisDiff的无监督方法,首次在DPMs框架中实现了解耦表示学习。在合成和真实世界的数据集上的大量实验证明了DisDiff的有效性。
Networks are Slacking Off: Understanding Generalization Problem in Image Deraining
Jinjin Gu Xianzheng Ma Xiangtao Kong Yu Qiao Chao Dong
研究问题:深度去雨网络在实验室基准测试中表现良好,但在真实世界应用中经常遇到严重的泛化问题。
动机:尽管深度学习鼓励使用复杂的数据进行训练,以期望更丰富的图像背景内容能有助于克服泛化问题,但通过全面和系统的实验,我们发现这种方法并没有提高这些网络的泛化能力,反而加剧了网络过度拟合特定退化现象的趋势。
方法:我们通过简化训练背景图像的复杂性来改善去雨网络的泛化能力。具体来说,当背景图像比雨迹简单时,网络会优先重建背景,从而抑制对雨模式的过度拟合,提高泛化性能。
效果:我们的研究发现为更好地理解低层次视觉任务中的泛化问题提供了有价值的视角和方法,并显示出在实际应用领域的潜力。
When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Segmentation
Xinhong Ma Yiming Wang Hao Liu Tianyu Guo Yunhe Wang
研究问题:如何将预训练的源模型适应到无标签的目标领域,同时避免访问私有源数据。
动机:现有的方法通常微调整个网络,这会导致参数调整费用高昂。为了解决这个问题,我们提出了利用视觉提示微调进行参数高效的适应。
方法:我们提出了一个通用的无监督视觉提示微调(Uni-UVPT)框架,适用于各种基于变压器的骨干网络。具体来说,我们将冻结参数的预训练源骨干网络分为多个阶段,并提出了轻量级提示适配器,用于逐步将有益的知识编码到提示中,增强相邻骨干阶段之间目标特征的泛化能力。
效果:大量的实验表明,Uni-UVPT在GTA5到Cityscapes和SYNTHIA到Cityscapes任务上取得了最先进的性能,可以作为一个通用且参数高效的大模型无监督知识转移框架。
Diversified Outlier Exposure for Out-of-Distribution Detection via Informative Extrapolation
Jianing Zhu Geng Yu Jiangchao Yao Tongliang Liu Gang Niu Masashi Sugiyama Bo Han
研究问题:如何有效地进行模型的分布外(OOD)检测,以在真实世界应用中部署可靠的机器学习模型。
动机:现有的OOD检测方法需要足够大且具有代表性的异常值样本集来覆盖内ID和OOD数据之间的边界,这在实践中可能既不切实际又具有挑战性。
方法:提出一种新颖的框架,即多样化异常暴露(DivOE),通过基于给定辅助异常值的信息外推进行有效的OOD检测。具体来说,DivOE引入了一个新的学习目标,通过在训练过程中显式合成更多信息丰富的异常值来进行外推,从而多样化辅助分布。它利用多步优化方法生成原始异常值之外的新异常值,这与许多异常暴露变体兼容。
效果:通过大量的实验和分析,展示了所提出的DivOE的有效性。代码已公开发布。
Mitigating Source Bias for Fairer Weak Supervision
Changho Shin Sonia Cromp Dyah Adila Frederic Sala
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Learning to Augment Distributions for Out-of-distribution Detection
Qizhou Wang Zhen Fang Yonggang Zhang Feng Liu Yixuan Li Bo Han
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Real-World Image Super-Resolution as Multi-Task Learning
Wenlong Zhang Xiaohui Li Guangyuan SHI Xiangyu Chen Yu Qiao Xiaoyun Zhang Xiao-Ming Wu Chao Dong
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Unsupervised Graph Neural Architecture Search with Disentangled Self-Supervision
Zeyang Zhang Xin Wang Ziwei Zhang Guangyao Shen Shiqi Shen Wenwu Zhu
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Expanding Small-Scale Datasets with Guided Imagination
Yifan Zhang Daquan Zhou Bryan Hooi Kai Wang Jiashi Feng
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Mitigating Test-Time Bias for Fair Image Retrieval
Fanjie Kong Shuai Yuan Weituo Hao Ricardo Henao
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced Transfer Learning
Yihua Zhang Yimeng Zhang Aochuan Chen Jinghan Jia Jiancheng Liu Gaowen Liu Mingyi Hong Shiyu Chang Sijia Liu
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Out-of-distribution Detection Learning with Unreliable Out-of-distribution Sources
Haotian Zheng Qizhou Wang Zhen Fang Xiaobo Xia Feng Liu Tongliang Liu Bo Han
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Learning Domain-Aware Detection Head with Prompt Tuning
Haochen Li Rui Zhang Hantao Yao Xinkai Song Yifan Hao Yongwei Zhao Ling Li Yunji Chen
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Med-UniC: Unifying Cross-Lingual Medical Vision-Language Pre-Training by Diminishing Bias
Zhongwei Wan Che Liu Mi Zhang Jie Fu Benyou Wang Sibo Cheng Lei Ma César Quilodrán-Casas Rossella Arcucci
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
What Do Deep Saliency Models Learn about Visual Attention?
Shi Chen Ming Jiang Qi Zhao
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
The Rise of AI Language Pathologists: Exploring Two-level Prompt Learning for Few-shot Weakly-supervised Whole Slide Image Classification
Linhao Qu xiaoyuan Luo Kexue Fu Manning Wang Zhijian Song
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
DAW: Exploring the Better Weighting Function for Semi-supervised Semantic Segmentation
Rui Sun Huayu Mai Tianzhu Zhang Feng Wu
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
CAPro: Webly Supervised Learning with Cross-modality Aligned Prototypes
Yulei Qin Xingyu Chen Yunhang Shen Chaoyou Fu Yun Gu Ke Li Xing Sun Rongrong Ji
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
LoCoOp: Few-Shot Out-of-Distribution Detection via Prompt Learning
Atsuyuki Miyai Qing Yu Go Irie Kiyoharu Aizawa
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Masked Two-channel Decoupling Framework for Incomplete Multi-view Weak Multi-label Learning
Chengliang Liu Jie Wen Yabo Liu Chao Huang Zhihao Wu Xiaoling Luo Yong Xu
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Learning Trajectories are Generalization Indicators
Jingwen Fu Zhizheng Zhang Dacheng Yin Yan Lu Nanning Zheng
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Counterfactual-Augmented Importance Sampling for Semi-Offline Policy Evaluation
Shengpu Tang Jenna Wiens
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
No Representation Rules Them All in Category Discovery
Sagar Vaze Andrea Vedaldi Andrew Zisserman
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
L2T-DLN: Learning to Teach with Dynamic Loss Network
Zhaoyang Hai Liyuan Pan Xiabi Liu Zhengzheng Liu Mirna Yunita
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Enhancing Adversarial Contrastive Learning via Adversarial Invariant Regularization
Xilie Xu Jingfeng Zhang Feng Liu Masashi Sugiyama Mohan Kankanhalli
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Factorized Contrastive Learning: Going Beyond Multi-view Redundancy
Paul Pu Liang Zihao Deng Martin Q. Ma James Zou Louis-Philippe Morency Russ Salakhutdinov
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
LaFTer: Label-Free Tuning of Zero-shot Classifier using Language and Unlabeled Image Collections
Muhammad Jehanzeb Mirza Leonid Karlinsky Wei Lin Horst Possegger Mateusz Kozinski Rogerio Feris Horst Bischof
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
RGMIL: Guide Your Multiple-Instance Learning Model with Regressor
Zhaolong Du Shasha Mao Yimeng Zhang Shuiping Gou Licheng Jiao Lin Xiong
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Importance-aware Co-teaching for Offline Model-based Optimization
Ye Yuan Can Chen Zixuan Liu Willie Neiswanger Xue Liu
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
Parallel-mentoring for Offline Model-based Optimization
Can Chen Christopher Beckham Zixuan Liu Xue Liu Christopher Pal
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。
KD-Zero: Evolving Knowledge Distiller for Any Teacher-Student Pairs
Lujun Li Peijie Dong Anggeng Li Zimian Wei Yang Ya
研究问题:弱监督虽然能减少对真实标签的需求,提高训练集的开发效率,但其产生的伪标签可能高度偏颇,且尚未从公平性的角度进行研究。
动机:即使可以从有真实标签的数据集构建公平模型,通过弱监督标注的相应数据集也可能极度不公平。
方法:我们提出了一种弱监督源不公平模型,并验证了其效果。然后引入了一种基于反事实公平性的技巧,以减轻这些偏见。
效果:理论上,我们的方法可以同时提高准确性和公平性,与标准公平方法存在权衡的情况形成对比。在实验上,我们的方法将弱监督基线的准确性提高了32%,并将人口分布差距降低了82.5%。